买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于渐进性视野锥的注视目标估计方法_合肥工业大学_202410100320.8 

申请/专利权人:合肥工业大学

申请日:2024-01-24

公开(公告)日:2024-03-22

公开(公告)号:CN117746164A

主分类号:G06V10/764

分类号:G06V10/764;G06T5/50;G06N3/0455;G06N3/0464;G06N3/084

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明公开了一种基于渐进性视野锥的注视目标估计方法,其步骤包括:1、先从目标人物的头部图片估计视线方向;2、利用深度图像构建以目标人物为中心的渐进性关系;3、根据视线方向和渐进性关系生成高质量的视野锥图像;4、结合视野锥图像、场景RGB图像和场景深度图提取潜在的视线目标的显著性特征;5、估计分块级的注视分布并与显著性特征结合,以丰富显著性特征映射到注视位置热图中的特征表示,6、利用优化的显著性特征来判断注视目标是否在图像内,并生成注视热图。本发明能快速准确地定位出图片中的目标人物的注视目标位置,基于渐进性关系生成的视野锥可以有效的消除与注视无关的背景,从而提高了注视目标估计的准确度。

主权项:1.一种基于渐进性视野锥的注视目标估计方法,其特征在于,是按如下步骤进行:步骤1、数据预处理:步骤1.1、获取注视目标估计数据集,并将所述注视目标估计数据集中的任意第n张图片记为In,利用单目深度估计方法为第n张图片In生成对应的归一化的深度图像Dn,1≤n≤N,N为所述注视目标估计数据集中的图片数目;标定出第n张图片In中任一目标人物的人头位置的边界框Pn,并根据边界框Pn从第n张图片In中裁剪出对应的目标人物的人头图像Cn;步骤1.2、构建一个与第n张图片In的尺寸相同的二值图像Bn,若第n张图片In中的像素点为边界框Pn内的像素点,则将Bn中相应位置的像素点设置为1,反之设置为0;步骤1.3、利用式1将Bn与Dn进行配对,生成对应的目标人物的头部深度图像其中,任意第i行第j列像素点的取值 式1中,Bi,j表示Bn中第i行第j列的像素值,Di,j表示Dn中第i行第j列的像素值,表示边界框Pn内所有像素索引集合;步骤1.4、若第n张图片In中目标人物的注视对象不在In中,则令注视标签否则,令注视标签并标记出目标人物的注视目标的位置点从而以Gn为中心,利用高斯核函数生成目标人物对应的注视热图并对注视热图进行分块处理,计算每个块中的最大像素值作为相应块的得分,从而得到第n张图片In的注视得分分布步骤2、建立由视线相关特征提取器、显著性特征提取器、热图回归编解码器、帧内帧外分类器构成的网络模型F,其中,热图回归编解码器由卷积层和反卷积层构成,帧内帧外分类器由卷积层和全连接层构成;步骤2.1、定义当前训练次数为t,并初始化t=1;步骤2.2、令第t次训练时的视线相关特征提取器记为并对Cn进行处理,得到第t次训练时优化的视野锥图像步骤2.3、令第t次训练时的显著性特征提取器记为将In、Dn和输入所述第t次训练时的显著性特征提取器中进行处理,得到第t次训练时细致的场景显著性特征步骤2.4、令第t次训练时的热图回归编解码器记为将输入第t次训练时的热图回归编解码器中进行处理,得到第t次训练时预测的注视热图步骤2.5、令第t次训练时的帧内帧外分类器记为将输入第t次训练时的帧内帧外分类器中进行处理,得到第t次训练时注视目标在图像内的预测标签步骤3、利用梯度下降法对第t次训练时的网络模型Ft进行训练,得到第t次训练后的网络模型Ft,并判断计算总损失函数是否收敛,若收敛,则表示第t次训练后的网络模型Ft的参数εt为最优参数ε*,并以最优参数ε*所对应的网络模型作为最终用于估计注视目标位置的最优模型;否则,将第t次训练后的网络模型Ft的作为第t+1次待训练的网络模型Ft+1,并将t+1赋值给t,返回步骤2.2顺序执行。

全文数据:

权利要求:

百度查询: 合肥工业大学 一种基于渐进性视野锥的注视目标估计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。