买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于宽时间范畴的多模态情境情感识别方法及系统_北京理工大学珠海学院_202310985679.3 

申请/专利权人:北京理工大学珠海学院

申请日:2023-08-07

公开(公告)日:2024-04-23

公开(公告)号:CN117149944B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/34;G06F40/289;G06F40/30;G06V20/62;G06F16/783;G06F18/24;G06N3/045;G06N3/0464;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2023.12.19#实质审查的生效;2023.12.01#公开

摘要:本发明公开了一种基于宽时间范畴的多模态情境情感识别方法及系统,包括以下步骤:利用自然环境下的音视频资源,构建基于情境的视频情感数据集;基于BERT模型对视频情感数据集进行文本情感识别;通过引入通道注意力机制,对人物面部情感进行识别;构建基于注意力机制的多模态多分支融合模型,并通过多模态多分支融合模型得到最终的情感识别结果。本发明用于解决现有的多模态情感识别技术存在的仅针对当前时刻包含的信息进行情感挖掘、不能有效区分出对情感状态有影响的区域、跨模态不一致以及跨模态不平衡等的技术问题,从而实现具有鲁棒性的、情感表征能力更强的情感识别系统的目的。

主权项:1.一种基于宽时间范畴的多模态情境情感识别方法,其特征在于,包括以下步骤:利用自然环境下的音视频资源,构建基于情境的视频情感数据集;基于BERT模型对所述视频情感数据集进行文本情感识别;通过引入通道注意力机制,对人物面部情感进行识别;构建基于注意力机制的多模态多分支融合模型,并通过所述多模态多分支融合模型得到最终的情感识别结果;其中,在构建基于情境的视频情感数据集时,包括:数据采集、情感类别定义、数据处理和以及数据标注;其中,所述数据采集,包括:筛选出与当前真实环境下的条件差别不大的影视剧,使用视频编辑工具在视频帧级别截取目标片段,将单个数据的时长控制在预设时间内,并且在尽可能减少镜头切换次数的基础上保留有用的场景信息;所述情感类别定义,包括:以EMOTIC数据集定义的情感类别为基准,加入了IEMOCAP中的沮丧情感和遗憾情感,得到多种情感类别;所述数据处理,包括:使用YOLOV5和Deepsort结合的多人目标追踪方法,识别并追踪视频当中所有出现的人,为每一个人的检测框赋予一个编号,并得到每一个检测框在图像中的坐标和宽高;基于检测到了目标人物在图像中的位置,利用MTCNN算法提取出人脸部分,并使用了libfacedetection算法进行查漏补缺;所述数据标注,包括:对每一个样本进行情感标注和文字标注;其中,所述情感标注,包括:基于定义的多种情感类别,采用多标签的方式给所述每一个样本标注情感;所述文字标注,包括:被标注者在当前视频片段中的台词、事实描述以及情境描述;在对人物面部情感进行识别时,包括:在模型训练阶段,从每个人脸图像序列中随机抽取N帧图像作为输入;在测试阶段,将整段视频的图像序列作为输入;面部情感识别部分选用ResNet18作为图像特征提取的基础网络,并引入通道注意力模块和重要性权重生成的方法,最后使用滑动融合的方式,根据每一帧图像对应的重要性权重进行时序上的融合,将融合结果送入分类器得到最终的分类结果。

全文数据:

权利要求:

百度查询: 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。