买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】文本描述辅助的姿势感知的人脸表情识别方法_中国科学技术大学;招商银行股份有限公司_202210683619.1 

申请/专利权人:中国科学技术大学;招商银行股份有限公司

申请日:2022-06-16

公开(公告)日:2024-04-16

公开(公告)号:CN114944002B

主分类号:G06V40/16

分类号:G06V40/16;G06V40/70;G06N3/08;G06N3/0464;G06V10/82;G06F40/30;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.09.13#实质审查的生效;2022.08.26#公开

摘要:本发明公开了一种表情描述文本辅助的姿势感知的人脸表情识别方法,包括:1、根据表情发生时的面部单元动作和对原始人脸图像的预处理,构建出多模态数据集合;2、构建姿势分类器,从人脸图像中提取姿势特征,并选取各种姿势的聚类中心作为对应的姿势特征;3、构建表情描述文本特征提取器,从文本中提取表情文本特征;4、融合人脸视觉特征,姿势特征和表情文本特征,以跨模态的方式为视觉特征生成对应姿势和表情的注意力图,并通过同时区分注意力图加权后的视觉特征的姿势和表情类别,从而得到最优表情表征网络。本发明能有效利用先验姿势特征和表情描述文本丰富的语义信息,从而能实现任意姿势下的表情的精准识别。

主权项:1.一种文本描述辅助的姿势感知的人脸表情识别方法,其特征在于,是按如下步骤进行:步骤1、构建多模态数据集合A;步骤1.1、构建多模态数据的表情描述文本集合,记为其中,sk表示第k条文本,m为文本的总条数;所述第k条文本sk包含的单词,记为其中,tk,l表示所述第k条文本sk中的第l个单词,Nk表示第k条文本信息的单词长度;步骤1.2、构建多模态数据的表情图像数据集合:获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集其中,xi,yi,vi分别表示第i个人脸图像及对应的表情类别和姿势类别,yi∈{1,2,…,m'},vi∈{1,2,…,n},N是表情图像数据集D中图像的数量,m'是表情的总类别数,n是姿势的总类别数,且m'=m;步骤2、构建姿势分类器,包含:姿势特征提取器Ep,分类器Cp和特征对齐器AL:步骤2.1、构建所述姿势特征提取器Ep为ResNet50结构:所述ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;步骤2.2、提取姿势特征:将所述表情图像数据集D的第i个人脸图像xi输入所述姿势特征提取器Ep中,获得第i个人脸图像xi的姿势特征步骤2.3、构建所述分类器Cp,包含一个全连接层:将所述姿势特征输入到所述分类器Cp中,得到第i个人脸图像xi预测的姿势类别v'i;步骤2.4、利用式1构建姿势分类损失Lpose:Lpose=crossentropyv′i,vi1式1中,crossentropy表示交叉熵函数;步骤2.5、利用式2计算第j种姿势的特征fj,从而得到n种姿势的特征: 式2中,nj表示预测的姿势类别v'i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量;步骤2.6、构建所述特征对齐器AL,包含一个全连接层:将所述第j种姿势的特征fj输入到所述特征对齐器AL中,得到对齐后的第j种姿势特征步骤3、构建表情描述文本特征提取器,包含:分词器Et,文本内特征编码器Eintra和文本间特征编码器Einter:步骤3.1、构建所述分词器Et,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;将所述表情描述文本集合S的第k条文本sk输入到所述分词器Et中进行处理,获得对应的第k个数字序列以及对应的第k个位置编码为pck;步骤3.2、构建文本内特征编码器Eintra,包含:嵌入层和多层Transformer编码器;所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;将所述第k个数字序列和第k个位置编码pck输入到所述文本内特征编码器Eintra中进行处理,获得第k个初步表情描述文本特征步骤3.3、构建所述文本间特征编码器Einter,包含:多层Transformer编码器;将所有初步表情描述文本特征输入到所述文本间特征编码器Einter中进行处理,获得最终表情描述文本特征其中,表示第k条表情文本描述特征;步骤4、构建跨模态模块,包含:图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce:步骤4.1、构建所述图像视觉特征提取器Ev,包含部分ResNet50的层结构;所述部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层和三个深度残差块;将所述表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理,获得第i个人脸图像xi的视觉特征步骤4.2、生成注意力图:步骤4.2.1、利用式3计算对齐后的第j种姿势特征第k种表情文本描述特征与视觉特征的余弦矩阵 式4中,×表示矩阵乘法,|·|表示沿着第0维求和;步骤4.3.2、利用式4计算余弦矩阵经激活函数ReLU后的矩阵 步骤4.3.3、利用式5计算矩阵经归一化函数Norm后的注意力图 步骤4.4、利用式6计算第i个人脸图像xi的最终特征Fi: 式6中,w和h分别表示视觉特征的宽度和高度,表示注意力图中按照先行后列的顺序排列后的第q个注意力权重,表示视觉特征中按照先行后列的顺序排列后的第q个视觉特征;步骤4.4、构建姿势分类器Cp和表情分类器Ce:所述姿势分类器Cp和表情分类器Ce均为一个全连接层;步骤4.5、将所述最终特征Fi分别输入到所述分类器Cp和分类器Ce中,并相应得到所述分类器Cp预测的人脸图像xi的姿势类别和所述分类器Ce预测的人脸图像xi的表情类别步骤4.6、利用式7构建总分类损失Lall: 步骤4.7、基于构建的多模态数据集合A,利用梯度下降的方法对所述文本间特征编码器Einter,图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce进行训练,计算所述总分类损失Lall用于更新网络参数,并在总分类损失Lall最小时停止训练,从而得到最优表情表征网络,用于同时对姿势和表情进行识别。

全文数据:

权利要求:

百度查询: 中国科学技术大学;招商银行股份有限公司 文本描述辅助的姿势感知的人脸表情识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。