申请/专利权人:上海海事大学
申请日:2020-12-21
公开(公告)日:2024-04-05
公开(公告)号:CN112633364B
主分类号:G06F18/241
分类号:G06F18/241;G06F18/2415;G06N3/045;G06N3/0464;G06N3/047;G06N3/09
优先权:
专利状态码:有效-授权
法律状态:2024.04.05#授权;2021.04.27#实质审查的生效;2021.04.09#公开
摘要:本发明公开了一种基于Transformer‑ESIM注意力机制的多模态情绪识别方法,包括:对原始数据进行预处理,以获得语音序列和文本序列;将预处理后的语音序列和文本序列输入至transformer编码层,以在transformer编码层提取深层特征并进行编码,获得编码序列;将编码序列输入至ESIM的交互注意力层,获得语音序列和文本序列之间的相似特征和差异特征;对相似特征和差异特征进行池化处理;将池化处理后的相似特征和差异特征输入至分类器,获得情绪识别的分类结果。应用本发明实施例,解决了传统神经网络的长期依赖性,其自身顺序属性无法捕获长距离特征以及多模态特征直接融合而忽视的模态间交互的问题,提高模型对情感语义的理解和泛化能力。
主权项:1.一种基于Transformer-ESIM注意力机制的多模态情绪识别方法,其特征在于,包括:对原始数据进行预处理,以获得语音序列和文本序列,其中,所述原始数据至少包括语音数据和文本数据;将预处理后的语音序列和文本序列输入至transformer编码层,以在所述transformer编码层提取深层特征并进行编码,获得编码序列;将所述编码序列输入至ESIM的交互注意力层,获得语音序列和文本序列之间的相似特征和差异特征;对所述相似特征和所述差异特征进行池化处理;将池化处理后的相似特征和差异特征输入至分类器,获得情绪识别的分类结果;所述将所述编码序列输入至ESIM的交互注意力层,获得语音序列和文本序列数据之间的相似特征和差异特征的步骤包括:根据语音序列和文本序列的相似度矩阵,提取文本词中的相似信息和语音帧的相似信息;基于所述文本词中的相似信息和所述语音帧的相似信息,计算语音序列和文本序列之间的差异特征;所述计算语音序列与文本序列之间的相似度矩阵所采用的具体公式为: 其中,i表示语音序列中的第i个标记,j表示文本序列中的第j个标记,和分别表示编码后的语音帧和文本词;eij表示语音的第i帧和文本的第j个词的相似度矩阵,表示中每个词与的相似信息,表示中每个帧与的相似信息,la,lb分别代表语音帧和文本句的长度;所述语音序列和所述文本序列之间的差异特征的表达式为: 其中,ma表示增强后语音信息,mb表示增强后文本的信息,-表示相减,*表示矩阵的乘积;所述对所述相似特征和所述差异特征进行池化处理的步骤包括:对增强后的语音信息和文本信息进行池化;对所述语音序列和所述文本序列进行平均池化和最大池化操作;将池化操作后的结果放入定长向量中。
全文数据:
权利要求:
百度查询: 上海海事大学 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。