买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种多人人体姿态估计方法_河北工业大学_202010108983.6 

申请/专利权人:河北工业大学

申请日:2020-02-21

公开(公告)日:2020-06-26

公开(公告)号:CN111339903A

主分类号:G06K9/00(20060101)

分类号:G06K9/00(20060101);G06K9/62(20060101);G06T7/73(20170101)

优先权:

专利状态码:失效-未缴年费专利权终止

法律状态:2024.03.08#未缴年费专利权终止;2020.07.21#实质审查的生效;2020.06.26#公开

摘要:本发明一种多人人体姿态估计方法,涉及用于识别图形的记录载体的处理,是一种基于深度特征的多人人体姿态估计方法,该方法构建了由主体网络与微调网络两部分组成的深度特征人体关键点检测模型,采用自底向上与自顶向下两种方法结合的两阶段训练方法训练深度特征人体关键点检测模型,最终利用两阶段训练好深度特征人体关键点检测模型检测人体关键点,并通过人体关键点聚类处理去除不属于目标人的冗余关键点,进而输出多人人体姿态估计结果,克服了现有多人人体姿态估计方法技术所存在的在人群稠密情况下,对目标人体遮挡干扰鲁棒性差,人体关键点检测正确率较低的缺陷。

主权项:1.一种多人人体姿态估计方法,其特征在于:是一种基于深度特征的多人人体姿态估计方法,该方法构建了由主体网络与微调网络两部分组成的深度特征人体关键点检测模型,采用自底向上与自顶向下两种方法结合的两阶段训练方法训练深度特征人体关键点检测模型,最终利用两阶段训练好深度特征人体关键点检测模型检测人体关键点,并通过人体关键点聚类处理去除不属于目标人的冗余关键点,进而输出人体姿态估计结果具体步骤如下:A过程.深度特征人体关键点检测模型的建立和训练:第一步,图像数据预处理:第1.1步,图像归一化:获取多人人体姿态估计MScoco图像数据集,该数据集是人体姿态估计领域公共数据集,分为标签文件和图像文件,其中标签文件保存每张图像已经标注好的十七个人体关键点位置信息,对所获取的多人人体姿态估计MScoco图像数据集中的多人人体姿态估图像进行预处理,即将图像调整为384×288像素尺寸,然后根据期望与标准差的三种组合:0.485,0.229,0.456,0.244,0.406,0.255,分别对图像的三个通道的像素值进行标准化,进而按照Mscoco数据集的划分方法将标准化处理后的图像文件分为原始图像训练集和原始图像测试集,由此完成图像归一化;第1.2步,生成标注人体关键点置信度热图与二值掩码:根据上述第1.1步中图像归一化得到的多人人体姿态估计图像以及每张图像已经标注好的十七个人体关键点位置信息,生成对应的十七个通道的人体关键点置信度热图,其中每个通道的人体关键点置信度热图的大小为96×72像素,同时生成对应的十七个通道的二值掩码,其大小与人体关键点置信度热图相同,人体关键点置信度热图生成的具体方法如下:根据上述1.1步中所获取的多人人体姿态估计MScoco图像数据集中的每张图像已经标注好的十七个人体关键点位置信息,得出在图像中位置的具体的人体关键点置信度热图如下公式1所示, 公式1中,n为图像中人体目标的标号,k=0,1,2,3…16代表人体关键点类别所对应的人体关键点置信度热图的数字索引,为图像中第n个人对应的第k类别人体关键点真值坐标,为图像中像素坐标,其中p与xk,n的距离越近,对应人体关键点置信度热图中的置信度越高,σ为控制峰值的扩散,将图像中所有人的置信度热图通过max运算将相同类别人体关键点热图聚合到同一置信通道Hkp,如下公式2所示, 在生成人体关键点置信度热图的基础上,生成十七个人体关键点通道的人体关键点二值掩码Wz,其大小与人体关键点置信度热图相同,z为十七个人体关键点通道的人体关键点二值掩码中的坐标位置,当坐标位置z的人体关键点不可见时,Wz=0,否则Wz=1,至此完成生成标注人体关键点置信度热图与二值掩码;所述十七个人体关键点的选定包括,鼻子、左右眼、左右耳、颈部、左右肩、左右手肘、左右手腕、左右臀部、左右膝盖和左右脚踝,这些人体关键点所对应的十七个通道的人体关键点置信度热图索引分别为,0-鼻子、1-左眼、2-右眼、3-左耳、4-右耳、5-左肩、6-右肩、7-左肘、8右肘、9-左腕、10-右腕、11-左髋、12-右髋、13-左膝、14-右膝、15-左踝、16-右踝;由此完成图像数据预处理;第二步,构建深度特征人体关键点检测模型:所构建的深度特征人体关键点检测模型分为主体网络与微调网络两部分:第2.1步,构建主体网络部分:主体网络部分以HRNet网络模型为基础,通过该模型结构中不同分辨率的深度特征输出层,构建得到的主体网络部分具有四个并行的深度特征提取子网络,其结构如下公式3所示, 公式3中,Nij为HRNet网络的基本处理单元,其中横向为分支,包括四个分支,分支数j=1,2,3,4,纵向为阶段,包括四个阶段,阶段数为i=1,2,3,4,该四个并行的深度特征提取子网的四个分支为:第一个分支为N11→N21→N31→N41,第二个分支为N22→N32→N42,第三个分支为N33→N43,第四个分支为N44,四个分支在四个并行深度特征提取子网络中引入交换单元进行多尺度融合,即引入的交换单元负责将各个处理单元输出的特征分辨率转换为下一处理单元处理的特征分辨率并融合,使每个深度特征提取子网络重复接收来自其他并行深度特征提取子网络的深度特征信息;该四个并行的深度特征提取子网的四个阶段为:第一个阶段为N11,第二个阶段为N21和N22,第三个阶段为N31、N32和N33,第四个阶段为N41、N42、N43和N44,每一个阶段包含特征提取与多尺度融合两种功能,如下所示:第一个阶段N11的输入为第一步预处理后的图像数据,经过特征提取生成C111,经过交换单元的多尺度融合后生成C211和C221,如下公式4所示, 公式4中,C111代表第一个阶段中N11提取的深度特征,C211和C221分别代表第一个阶段N11中交换单元多尺度融合后的深度特征,C211=C111,C221为C111的下采样,并且C211和C221分别为N21和N22的输入,第二个阶段N21和N22分别以C211和C221为输入,经过特征提取生成C212和C222,经过交换单元的多尺度融合后生成C312、C322和C332,如下公式5所示, 公式5中,C212代表第二个阶段中N21提取的深度特征,C222代表第二个阶段N22提取的深度特征,C12=C212,C22与C32为C212的下采样且分辨率不同,C52=C222,C42为C222的上采样,C62为C22的下采样,C312、C322和C332分别代表第二个阶段中交换单元多尺度融合后的深度特征,并且C312、C322和C332分别为N31、N32和N33的输入,第三个阶段N31、N32和N33分别以C312、C322和C332为输入,经过特征提取生成C313、C323和C333,经过交换单元的多尺度融合后生成C413、C423、C433和C443,如下公式6所示, 公式6中,C313、C323和C333分别代表第三个阶段中N31、N32和N33提取的深度特征,C13=C313,C23、C33和C43为C313的下采样且分辨率不同,C63=C323,C53为C323的上采样,C73和C83为C323的下采样且分辨率不同,C113=C333,C93和C103为C333的上采样且分辨率不同,C123为C333的下采样,C413、C423、C433和C443分别代表第三个阶段中交换单元多尺度融合后的深度特征,并且C413、C423、C433和C443分别为N41、N42、N43和N44的输入,第四个阶段N41、N42、N43和N44分别以C413、C423、C433和C443为输入,经过特征提取生成C414、C424、C434和C444,C414、C424、C434和C444分别为第四个阶段中N41、N42、N43和N44提取的深度特征,从最后一个交换单元输出的高分辨率深度特征中回归人体关键点置信度热图H,如下公式7所示,H=C14+C24+C34+C447,公式7中,C14=C414,C24、C34和C44分别为C424、C434和C444的上采样且与C14分辨率相同,H为人体关键点置信度热图,由此完成构建主体网络部分,将四个并行的深度特征提取子网中的第i个阶段的输入记为C={C1,C2,…,Ci},第i阶段的输出记为C’={C1’,C2’,…,Ci+1’},输出的分辨率和宽度与输入的分辨率和宽度相同,在同一个阶段的不同个分支中,交换单元多尺度融合方式如下公式8所示, 公式8中,函数aCr,m表示将Cr从分辨率r上采样或下采样到分辨率m,Cm’为C’包含的元素,上采样使用最邻近采样,然后使用1×1的卷积进行通道对齐,下采样使用3×3的卷积,当r=m,有如下公式9所示,aCr,m=Cr9,主体网络输出的深度特征分辨率逐步递减为前一个阶段的一半,宽度即通道数加倍,通过并行连接高分辨率深度特征到低分辨率深度特征提取卷积来保持高分辨率深度特征,并通过在并行深度特征提取子网络之间重复执行多尺度融合来增强高分辨率深度特征,从而更加准确地定位图像中的人体关键点;第2.2步,构建微调网络部分:微调网络是将上述第2.1步构建的主体网络的各个阶段提取的深度特征:C111、C212、C313、C414以及人体关键点置信度热图H进行进一步的特征提取,具体结构如下: 公式10中,C111、C212、C313、C414、H经过进一步特征提取后分别生成F1、F2、F3、F4、F5,其中F1、F2、F3、F4、F5的宽度和分辨率都相同,C为F1、F2、F3、F4、F5的特征级联,H*为经过人体关键点在线挖掘的人体关键点置信度热图,在主体网络的每个阶段都会有一个融合所有分支深度特征图的高分辨率深度特征图,微调网络根据不同类别人体关键点的识别率不同,进行人体关键点的在线挖掘以修正上述第2.1步构建的主体网络的人体关键点检测结果,即将输出的十七个置信度热图的单通道损失进行降序排序,取前八位的损失之和作为损失函数的最终值,结合主体网络的损失使得深度神经网络模型更加关注识别率较低的人体关键点;第三步,训练深度特征人体关键点检测模型:对上述第二步构建的深度特征人体关键点检测模型采用迁移学习训练方法,即首先进行自底向上的方法训练该深度特征人体关键点检测模型,然后进行自顶向下的方法训练该深度特征人体关键点检测模型,第3.1步,采用自底向上训练深度特征人体关键点检测模型,输出人体关键点检测置信度热图:将上述第1.1步中的原始图像训练集中的人体预处理后的图像和对应的上述第1.2步中的人体关键点置信度热图作为深度特征人体关键点检测模型的输入和输出,对深度特征人体关键点检测模型进行有监督的学习训练,采用完全自底向上的方法,利用上述第1.1步中的原始图像训练集中的人体预处理后的图像数据对上述第二步构建的深度特征人体关键点检测模型进行训练,使得该深度特征人体关键点检测模型识别图像中所有的人体关键点而不受人体实例的影响,能够学习到数据集中图像完整的信息,并根据其中所学到的深度特征来输出人体关键点检测置信度热图,训练深度特征人体关键点检测模型的损失函数如下公式11、公式12和公式13所示, Loss=Loss1+Loss213,公式11和12中,k=0,1,2,3…16为人体关键点类别所对应的人体关键点置信度热图的数字索引,p为图像中的像素坐标,H′kp为p位置人体关键点置信度热图的检测值,Hkp为p位置人体关键点置信度热图的真值,W为二值掩码,·为矩阵乘法,当p位置的人体关键点不可见,则Wp=0,公式13中,Loss1为主体网络的损失,Loss2为微调网络的损失,微调网络结合Loss2完成识别率较低的人体关键点在线挖掘,将输出的十七个人体关键点检测置信度热图的单通道损失进行降序排序,取前八位的损失之和作为损失函数的最终值,结合主体网络的损失使得深度特征人体关键点检测模型更加关注识别率较低的人体关键点,在训练过程有效提高识别率较低的人体关键点识别率;在采用自底向上训练深度特征人体关键点检测模型的训练过程中,采用Adam算法调整卷积的参数,学习率设置为0.001,从第170个循环开始以10%的增长率增大学习率,至此完成采用自底向上训练深度特征人体关键点检测模型,输出人体关键点检测置信度热图;第3.2步,采用自顶向下训练深度特征人体关键点检测模型,识别裁剪后的图像中的所有人体关键点:首先对上述第1.1步中得到的原始图像训练集进行多人人体目标检测,多人人体目标检测结果为多个人体实例区域的边界框,根据边界框对相应图像进行裁剪,生成以多人人体实例为主体的图像数据集,对该数据集中的图像进行与上述第一步的图像数据预处理相同的预处理操作,根据裁剪后的图像与原图像空间的映射关系,生成裁剪图像内人体关键点的真值置信度热图,然后,采用自顶向下的方法,使用裁剪后的图像与对应的真值置信度热图继续完成训练深度特征人体关键点检测模型,最终识别裁剪后的图像中的所有人体关键点,由此完成采用自顶向下训练深度特征人体关键点检测模型,识别裁剪后的图像中的所有人体关键点,至此完成A过程.深度特征人体关键点检测模型的建立和训练;B过程.深度特征人体关键点检测模型的测试:第五步,人体目标检测:采用自顶向下的方法对上述第1.1步中得到的原始图像测试集进行人体目标检测,人体目标检测结果为人体实例的边界框,根据人体目标检测计算方法的输出结果对相应图像进行裁剪,生成以人体实例为主体的图像数据集,对该数据集的图像进行与上述第一步图像数据预处理相同的预处理操作;上述人体目标检测计算方法的操作是,对不同尺寸的静态图像产生一组固定大小的默认边界框集合,对该组默认边界框内的区域利用深度特征人体关键点检测模型进行特征提取,提取特征的骨架网络采用残差网络50,取残差网络后四个残差单元输出的深度特征作为特征金字塔网络的输入,然后使用特征金字塔网络进行特征的分类,其中的人类类别的边框用于多人人体姿态估计任务;第六步,输出人体关键点检测置信度热图:使用上述第3.2步中采用自顶向下训练的深度特征人体关键点检测模型识别上述第五步中根据人体目标检测计算方法的输出结果对相应图像进行裁剪以后生成的图像中的所有人体关键点,并输出人体关键点检测置信度热图;第七步,聚类人体关键点,输出多人人体姿态估计结果:对上述第六步中输出的人体关键点检测置信度热图用人体关键点聚类模型进行人体关键点聚类,即将属于图像中的同一人体目标的人体关键点进行聚类,组成多人人体姿态估计的最终结果,根据上述第五步中的裁剪以后生成的图像中的所有人体关键点,将人体关键点坐标还原到第一步中的原图像空间中;所用的人体关键点聚类模型为如下公式14所示,H*={h1,h2,...,hk}14,公式14中,H*为第2.2步中经过人体关键点在线挖掘的人体关键点置信度热图,为人体关键点单通道置信度热图,k=0,1,2,3…16代表人体关键点类别所对应的人体关键点置信度热图的数字索引,最后的输出目标标记为Y,包含该人体关键点置信度通道中峰值指示的每个人体关键点的正确位置,输出目标Y={y1,y2,...,yk},其中为聚类后的人体关键点单通道置信度热图,其大小与hk相同,通过如下公式15将H*映射到Y,yk=φkH*+hk15,公式15中,函数φ1,φ2,...,φK为对H*中的姿势应用残差校正,输出层的激活使用softmax来获得适当的概率分布,并且在训练期间使用二进制交叉熵作为损失函数,使用“对象人体关键点相似性的k均值”对所有获得的人体关键点进行聚类,输出多人人体姿态估计结果;至此完成B过程的深度特征人体关键点检测模型的测试;最终完成多人人体姿态估计。

全文数据:

权利要求:

百度查询: 河北工业大学 一种多人人体姿态估计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。