买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】第一人称视角动作识别方法、系统及存储介质_中山大学_202110013011.3 

申请/专利权人:中山大学

申请日:2021-01-06

公开(公告)日:2023-07-18

公开(公告)号:CN112686194B

主分类号:G06V40/20

分类号:G06V40/20;G06V10/46;G06V10/82;G06N3/0442;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2023.07.18#授权;2021.05.07#实质审查的生效;2021.04.20#公开

摘要:本发明公开了一种第一人称视角动作识别方法、系统及存储介质,所述方法包括以下步骤:定位视频中的关键区域;提取关键区域的特征和全局特征;将关键区域的特征划分为用于表示两种交互主体的两个组别;构建显式关系建模的长短时记忆网络;进行动作识别。本发明采用弱监督的关键区域定位的技术方案,能够自动地定位参与到动作中的人或物体,减少了人和物体位置标注的需求;本发明还通过设计不同类型的连接,能在长短时记忆网络的基础上进一步显式建模视频中的不同关系;本发明还通过网络结构自动搜索技术,实现了自动的网络结构设计,根据数据特征自动选择最优的结构,减少了人工设计网络的负担。

主权项:1.一种第一人称视角动作识别方法,包括以下步骤:使用动作类别作为监督,定位视频中的关键区域;通过所述关键区域的位置信息提取关键区域的特征;提取整个视频的特征作为全局特征;通过学习将所述关键区域的特征划分为用于表示两种交互主体的两个组别;所述两种交互主体包括摄像头穿戴者的身体部位,以及与摄像头穿戴者交互的人或物体;构建显式关系建模的长短时记忆网络,在基础的长短时记忆网络结构中设计候选连接;所述候选连接包括不同帧之间的时序关系,两个交互主体组别之间的交互关系,以及交互主体和全局特征之间的上下文关系;通过网络结构自动搜索的方法,以数据驱动的方式搜索最优的长短时记忆网络结构,并进行动作识别;所述显式关系建模的长短时记忆网络包含两个互相对称的ego子网络和exo子网络;所述ego子网络和exo子网络分别对应所述表示两种交互主体的两个组别;所述ego子网络和exo子网络的隐层状态增加多种候选连接,用于网络结构搜索并显式建模不同关系;t时刻的ego子网络的计算表达式如下: ht=σot⊙tanhCt, 其中,ft,it,ot,st,ht,Ct,分别表示遗忘门,输入门,输出门,共享状态门,隐层状态,单元状态和候选单元状态,St表示共享状态,是累积共享状态,Wih,Whh是可学习参数;是候选连接的集合,wi是第i个候选连接的权重,是第i个候选连接的特征;所述显式关系建模的长短时记忆网络其他时刻和exo子网络的计算形式和以上计算具有一样的形式;所述候选连接的集合包含显式建模不同帧之间的时序关系,两个交互主体组别之间的交互关系,和交互主体和全局特征之间的上下文关系的连接;所述不同帧之间的时序关系利用t-2时刻和t+1时刻隐层状态和输入特征进行建模,如下式: 其中,Wpt和Wft是可学习参数;所述两个交互主体组别之间的交互关系通过显式融合所述ego子网络和exo子网络的特征进行建模,如下式: 其中,Wpi,Wci和Wfi为可学习参数;所述交互主体和全局特征之间的上下文关系通过在长短时记忆网络中融合全局特征进行建模,如下式: 其中,Wc为可学习参数;zt为每帧的全局特征空间平均池化后的特征。

全文数据:

权利要求:

百度查询: 中山大学 第一人称视角动作识别方法、系统及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。