买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于时空双向扩张因果卷积和Transfomer的多模态情感识别方法_南京邮电大学_202311644928.9 

申请/专利权人:南京邮电大学

申请日:2023-12-04

公开(公告)日:2024-03-22

公开(公告)号:CN117744022A

主分类号:G06F18/25

分类号:G06F18/25;G06V40/16;G06V10/82;G06N3/0464;G06F18/241

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明提供了一种基于时空双向扩张因果卷积和Transfomer的多模态情感识别方法,包括:处理表情、语音模态的视频,得到表情序列和语谱图序列,提取姿态特征得到姿态特征序列;ResNet18网络处理表情和语音模态,得到特征图,重排列特征图构成对应的空间特征序列;对得到的空间特征序列通过空间注意力双向扩张因果卷积网络捕获空间上的依赖关系;再将表情和语音特征序列以及姿态特征序列送入时间注意力双向扩张因果卷积网络捕获时间上的依赖关系;将表情、语音、姿态特征堆叠得到特征矩阵,通过Transformer实现特征融合。本发明通过时空双向扩张因果卷积网络捕获模态内部的时空依赖,获得聚合了时空信息的高级模态特征,采用Transformer捕获模态间的特征交互,实现多模态特征融合。

主权项:1.一种基于时空双向扩张因果卷积和Transfomer的多模态情感识别方法,其特征在于,包括如下步骤:步骤一、通过Opencv库处理表情模态得到视频序列,通过Dlib库得到所述视频序列中的人脸从而得到表情图像,从所述表情图像中等间隔提取8帧表情图像,所述8帧表情图像构成表情图像序列;通过Spicy库将语音模态从所述视频序列转换为音频序列,通过pydub库对所述音频序列进行切割,得到5段音频段落以及完整音频段落,从所述5段音频段落和所述完整音频段落中提取Log-Mel语谱图、一阶语谱图以及二阶语谱图,得到长度为6的语谱图序列;从所述视频序列中等间隔提取10帧姿态特征得到姿态特征序列;步骤二、通过ResNet18网络处理每帧所述表情模态和每帧所述语音模态,得到表情模态特征图和语音模态特征图,对所述表情模态特征图和所述语音模态特征图进行重排列,构成表情和语音模态序列每帧图像对应的表情空间特征序列和语音空间特征序列;步骤三、对所述表情空间特征序列和所述语音空间特征序列分别通过空间注意力双向扩张因果卷积网络捕获空间上的依赖关系;步骤四、将经过所述空间双向扩张因果卷积网络处理后得到的所述表情空间特征序列和所述语音空间特征序列以及所述姿态特征序列送入时间注意力双向扩张因果卷积网络捕获时间上的依赖关系;步骤五、对所述步骤四得到的表情特征、语音特征和姿态特征堆叠得到特征矩阵,然后通过Transformer进行特征融合。

全文数据:

权利要求:

百度查询: 南京邮电大学 基于时空双向扩张因果卷积和Transfomer的多模态情感识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。