买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深度神经网络和注意力机制的手势识别方法_北京工业大学_202110518115.X 

申请/专利权人:北京工业大学

申请日:2021-05-12

公开(公告)日:2024-04-09

公开(公告)号:CN113378641B

主分类号:G06V40/20

分类号:G06V40/20;G06V10/80;G06F3/01;G06V10/82;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2021.09.28#实质审查的生效;2021.09.10#公开

摘要:基于深度神经网络和注意力机制的手势识别方法属于电子信息领域。首先,本发明设计在双流算法中引入ECA有效通道注意力增强双流算法对手势关键帧的关注度,并利用双流算法中的空间卷积网络和时间卷积网络分别提取动态手势中的空间和时序特征;其次,通过ECA在空间流中选取最高关注度的手势帧,利用单发多框检测器技术提取相应手部姿态特征;最后,将手部姿态特征与双流中提取的人体姿态特征、手势时序特征融合后分类识别手势。本方法在Chalearn2013多模态手势数据集上进行了验证,准确率为66.23%,相比之前在该数据集上仅使用RGB信息进行双流识别的方法获得了更好的手势识别效果。

主权项:1.基于深度神经网络和注意力机制的手势识别方法,其特征在于:1利用双流算法提取动态手势的人体姿态特征、手势时序特征a人体姿态特征提取对于一个输入宽为w、高为h的手势视频,首先按照该视频的开始时间和结束时间从中平均选取T帧手势图Xτ,X2τ…XTτ,将其堆叠作为双流算法中空间卷积网络的输入,用来提取动态手势的人体姿态特征G;其中,Xτ,X2τ…XTτ表示选取的手势帧集合,下标τ表示每选取两帧手势图之间相隔的帧数;双流算法中的空间卷积网络用开源的MobileNetV3实现;b手势时序特征提取手势的浅层时序特征可利用相邻视频帧之间的光流位移场向量表示;用开源的DenseFlow方法提取光流;光流是相邻视频帧中所有像素点位移矢量信息的一种表示,其中第t和第t+1连续视频帧之间的位移矢量信息可定义为dt,而dt的水平分量和垂直分量则分别表示手势在相邻视频帧中沿水平和垂直方向的运动轨迹;为了从光流数据中获取更深层次的手势运动变化规律,针对选取手势帧集合Xτ,X2τ…XTτ中的每一帧,将其左右邻域内的光流图叠加,并将叠加后的光流图作为双流算法时间卷积网络的输入用来提取动态手势的时序特征S,使用开源的MobileNetV3特征提取网络实现;其中,每个手势帧获取光流的左右视频帧邻域数设置为5;2利用ECA注意力为手势帧和光流帧集合赋予初始权重在双流算法的数据输入层后面引入开源的ECA注意力模块为手势帧和光流帧集合赋予初始权重,进而提升手势关键帧的学习;ECA模块的结构使用全局平局池化操作将每个通道的特征图映射为单一变量;然后再使用大小为1×1、填充幅度为k-1的一维卷积操作求取变量间的线性映射关系,k为5;最后再使用Sigmoid激活函数得到每个特征图通道的初始权重,如式1所示: 其中,C表示需要加权的特征图通道集合,ci表示C中的第i层特征图通道,函数GAP·表示全局平均池化操作,li表示特征图通道ci全局平均池化后的单一变量,表示第i个变量1×1卷积内的第j个变量,αj表示该变量的系数,σ表示Sigmoid激活函数,wi表示特征图通道ci对应的初始权重;至此,识别动态手势关键帧的注意力模块已建立;将输入双流算法中的手势帧与光流帧集合在通道维度上进行堆叠,则每个手势帧和光流帧都可以看作一个特征图通道;然后再将手势帧集合和光流帧集合分别代入到公式1中的C,则可求对应通道的初始权重,进而增强手势关键帧的学习;3利用SSD从初始权重最高的手势帧中提取手部姿态特征利用开源的SSD目标检测技术从初始权重最高的手势帧中提取手部姿态特征O,用来增强双流算法对相似手势的识别效果;其中,手部姿态特征O共包含Oleft、Oright两部分,分别表示关键帧中左右手预测为不同手部姿态类型的置信度集合;表示左手属于第i类手部姿态的置信度,Oleft、Oright中置信度最高的即为对应的左右手类别;在此基础上,将左右手姿态特征O与双流算法中提取的人体姿态特征G和手势时序特征S融合即可构成最终的手势时空上下文特征F;4特征融合及手势分类双流算法提取的人体姿态特征G和手势时序特征S具有像素级的对应关系;首先在通道维度上堆叠特征G、S用来满足特征图层的像素级对应关系;然后使用三维卷积,三维卷积核大小设置为3*3*3,和三维池化,池化大小设置为2*2*2,最大池化;进一步融合特征G、S;最后设计在全连接层拼接手部姿态特征O,如式2所示: 其中,表示向量拼接或通道堆叠,ψ·表示对变量进行三维卷积和三维池化,R·表示将变量转换为一维向量;最后,特征F通过全连接层即可计算当前视频属于每一类手势的预测概率,预测概率最大的即为最终的手势类型。

全文数据:

权利要求:

百度查询: 北京工业大学 基于深度神经网络和注意力机制的手势识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。