买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于交互建模的第一人称视角视频交互行为识别方法_中山大学_202010009544.X 

申请/专利权人:中山大学

申请日:2020-01-06

公开(公告)日:2023-07-14

公开(公告)号:CN111241963B

主分类号:G06V40/20

分类号:G06V40/20;G06V20/40;G06V10/764;G06V10/82;G06N3/0464;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2023.07.14#授权;2020.06.30#实质审查的生效;2020.06.05#公开

摘要:本发明公开了一种基于交互建模的第一人称视角视频交互行为识别方法,提出对摄像头佩戴者和交互者进行分离,分别学习其对应的静态外观和动态运动特征,再显式建模二者之间的交互关系。为了将交互者从背景中分离出来,利用一个注意力模型生成掩码,并用人体解析模型辅助注意力模型的学习;提出一个运动模块分别预测摄像头佩戴者对应和交互者对应的运动信息矩阵,并通过对下一帧的重构辅助运动模块的学习。最后,提出一个用于交互建模的对偶长短时记忆模块,并在此模块基础上显式地建模交互关系。本发明能很好地对第一人称视角的交互行为进行描述和识别,并在常用的第一人称视角交互行为研究数据集上取得当前较优的识别结果。

主权项:1.基于交互建模的第一人称视角视频交互行为识别方法,其特征在于,包括下述步骤:S1、将摄像头佩戴者和交互者显式分离,分别学习二者的行为特征,包括:S1.1、通过注意力模块将交互者从背景中分离出来;S1.2、分别提取和学习摄像头佩戴者和交互者的行为特征,所述行为特征包括静态外观特征和动态运动特征;所述静态外观特征为摄像头佩戴者看见的静态视觉内容的特征,即对应摄像头佩戴者的视频帧It的全局外观特征,以及对应交互者的视频帧It的局部外观特征;S1.3、运动特征学习,对于摄像头佩戴者,其运动信息即为摄像头运动信息,该运动信息对视频帧变化的影响是全局性的;对于交互者,其运动信息对视频帧变换的影响是局部的,通过一个密集的运动矩阵D∈RHxW来表示交互者的运动信息,并通过和注意力模块生成的掩码Mt3逐渐相乘,使运动矩阵D只作用于交互者而不作用于背景;S1.4、对于每一对相邻的视频帧It-1,It,通过上述的注意力模块和运动矩阵分别得到摄像头佩戴者对应的全局静态外观特征ftg,a和运动特征ftg,m,以及交互者对应的局部静态外观特征ft1,a和运动特征ft1,m,摄像头佩戴者的行为特征定义为ftego=[ftg,a,ftg,m],交互者的行为特征定义为ftexo=[ft1,a,ft1,m],这两个特征将用于摄像头佩戴者和交互者之间的交互关系建模;S2、对偶交互关系建模;S2.1、构建用于交互建模的长短时记忆模块;步骤S2.1中,构建用于交互建模的长短时记忆模块具体为:摄像头佩戴者和交互者的个体行为特征分别输入对应的长短时记忆模块,这两个模块互为对偶模块,采用对称的更新方式:[it;ot;gt;at]=σWft+UFt-1+Jt-1+b ct=itat+gtct-1Ft=ottanhct其中it,ot,gt,at分别是长短时记忆模块的输入门限值,输出门限值,遗忘门限值和输入特征,σ是非线性函数sigmoid函数,Φ是线性整流函数,ft是摄像头佩戴者或交互者的个体行为特征,ct是长短时记忆模块的中间特征,Ft则是对应的长短时记忆模块的输出特征,Ft*是对偶模块的输出特征,V、b为长短时记忆模块的可学习参数;S2.2、用于交互建模的长短时记忆模块通过把对偶模块在上一帧的输出作为当前帧的输入,显式建模了摄像头佩戴者和交互者的交互关系;步骤S2.2中,还包括下述步骤:将两个长短时记忆模块在视频的最后一帧N时的输出逐点相加并通过非线性操作得到融合后的特征: 在RN上添加一个线性分类器,并通过softmax函数可以得到对应于各个行为类别的概率:py|RN=softmaxWRN+b使用交叉熵损失函数对分类结果进行优化: 其中yk为类别k的标签,即如果行为类别编号为k,则yk=1,否则yk=0;K为总的类别数。

全文数据:

权利要求:

百度查询: 中山大学 基于交互建模的第一人称视角视频交互行为识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。