买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于RGB-D的视频三维人体姿态估计方法_华南理工大学_202210504347.4 

申请/专利权人:华南理工大学

申请日:2022-05-10

公开(公告)日:2024-04-02

公开(公告)号:CN114973407B

主分类号:G06V40/20

分类号:G06V40/20;G06N3/04;G06N3/047;G06N3/08;G06T7/50;G06T7/55;G06V10/764;G06V10/80;G06V10/82;G06V20/40;G06V40/10

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2022.09.16#实质审查的生效;2022.08.30#公开

摘要:本发明公开了一种基于RGB‑D的视频三维人体姿态估计方法,包括以下步骤:使用RGB摄像头获取RGB视频,对于RGB摄像头拍摄的同一场景,使用深度相机获取对应的深度视频;获取RGB视频中每帧人体二维姿态,根据二维姿态从深度图像中获取关键点深度值,从而得到对应帧的二维人体姿态的深度向量;使用深度信息编码模块学习深度信息特征;将获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息,输出融合时间维度信息的特征,将该特征作为三维姿态假设生成模块的输入,生成出不同的三维姿态假设;使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合,将融合后的特征预测三维人体姿态结果。

主权项:1.一种基于RGB-D的视频三维人体姿态估计方法,其特征在于,包括以下步骤:1使用RGB摄像头获取RGB视频;2对于RGB摄像头拍摄的同一场景,使用深度相机获取对应的深度视频;3使用离线二维人体姿态估计模型获取RGB视频中每帧人体二维姿态;4根据二维姿态从深度图像中获取关键点深度值,从而得到对应帧的二维人体姿态的深度向量;5使用深度信息编码模块学习深度信息特征;6将经过步骤3获取的二维人体姿态序列输入时序信息编码模块学习视频时间维度上的局部和全局信息,输出融合时间维度信息的特征;7将步骤6输出的特征作为三维姿态假设生成模块的输入,生成出不同的三维姿态假设;8使用注意力机制将三维姿态假设特征与深度信息特征进行注意力融合;包括以下步骤:首先使用三个可学习的特征变换矩阵分别将深度信息特征Xd、三维人体姿态特征编码Xh、Xh进行投影得到从而获得然后使用式1计算注意力结果: 其中Attention为注意力计算结果,Q、K、V分别表示基于Key-Query-Value的注意力机制的Key、Query、Value特征;Dq、Dk、Dv分别表示Q、K、V在各自特征空间上的特征维度,T表示输出视频的长度,C表示获取的深度信息特征和获取人体姿态特征编码的维度,G表示三维姿态假设生成模块中的编码模块的数量;使用多头注意力机制丰富的特征信息,具体计算方式如式2、式3:MultiHeadAttnQ,K,V=Concathead1,…,headMWo2 其中MultiHeadAttnQ,K,V为多头注意力计算的结果,Concat表示沿特征维度进行拼接操作,headi表示第i个头的注意力计算结果;上式展示了M个头的多头自注意力计算过程;在计算第i个头时,首先由可学习的参数矩阵将Q、K、V投影成Dk、Dk、Dv维度,然后利用式1的注意力计算公式算出该头的注意力结果,算出M个头的自注意力结果后,将所有结果沿特征维度进行拼接操作,最后使用参数矩阵Wo投影到原来的维度;9使用线性网络模型利用步骤8融合后的特征预测三维人体姿态结果。

全文数据:

权利要求:

百度查询: 华南理工大学 一种基于RGB-D的视频三维人体姿态估计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。