买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于Transformer的面部注视估计方法_华中科技大学_202311785920.4 

申请/专利权人:华中科技大学

申请日:2023-12-22

公开(公告)日:2024-03-26

公开(公告)号:CN117765590A

主分类号:G06V40/16

分类号:G06V40/16;G06V10/80;G06V10/82;G06V10/26;G06V10/764;G06V20/70;G06N3/045;G06N3/084;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.12#实质审查的生效;2024.03.26#公开

摘要:本发明公开一种基于Transformer的面部注视估计方法:1训练基于朴素视觉Transformer的强化融合的注视估计算法模型,包括:1.1对原始数据集中的所有图片的面部特征区域进行识别和标注,以进行数据清理并得到带有统一高精度标注的标准数据集,标签为实例级别的包围框的左上及右下顶点;1.2构建基于朴素视觉Transformer的强化融合的面部注视特征提取架构,利用多重面部注视特征编码及特征间长距离建模提取及融合特征语义信息;1.3利用上述提取出的强化语义信息融合的面部注视特征进行注视估计;2利用上述训练好的模型进行注视估计。本发明通过对突出面部局部特征信息和全局特征信息间的强化融合,更完整且精确的提取面部特征信息以进行注视估计。

主权项:1.一种基于Transformer的面部注视估计方法,其特征在于,包括:1训练基于朴素视觉Transformer的强化融合的注视估计算法模型,包括以下子步骤:1.1对原始数据集中的所有图片的面部特征区域进行识别和标注,以进行数据清洗并得到带有统一高精度标注的标准数据集,标签为实例级别的包围框的左上及右下顶点;1.2构建基于朴素视觉Transformer的强化融合的注视估计算法模型,所述基于朴素视觉Transformer的强化融合的注视估计算法模型由面部特征图像分割模块、前向特征投影网络、可学习的注视特征标记和面部特征图像块融合模块、朴素视觉Transformer编码器及多层感知机注视估计头部组成,其中朴素视觉Transformer编码器由多层特征提取和融合模块组成,每一层都均由多头自注意力层、多层感知机层级及LayerNorm层交替连接,同时相互之间进行残差连接,对1.1中经过数据清洗后的标准数据集进行特征提取,利用提取到的强化语义信息融合的面部注视特征进行注视估计:将提取到的面部注视特征直接输入多层感知机的注视估计头部网络,所述多层感知机头部由两个隐藏层和非线性激活函数交替连接而成,计算训练注视点,并设计损失函数,利用反向传播和梯度下降算法训练该基于朴素视觉Transformer的强化特征语义信息融合的注视估计算法模型;2利用上述训练好的模型对待分析的图片进行注视估计:将待分析的图片通过面部特征图检测网络,得到面部特征实例级别的包围框,将面部特征同时输入图像分割模块,将图像块调整为相同分辨率后分割为指定分辨率大小的图像块,对来自不同特征的图像块投影到同样维度大小,嵌入注视特征标记并进行统一的位置编码后,输入注视估计任务头部,通过隐藏层和非线性激活函数最终输出唯一的注视估计点

全文数据:

权利要求:

百度查询: 华中科技大学 一种基于Transformer的面部注视估计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。