申请/专利权人:四川大学
申请日:2022-10-14
公开(公告)日:2024-04-30
公开(公告)号:CN117953253A
主分类号:G06V10/764
分类号:G06V10/764;G06V10/42;G06V10/44;G06V10/80;G06V10/82;G06N3/0464;G06N3/047;G06N3/0455;G06N3/08
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.05.17#实质审查的生效;2024.04.30#公开
摘要:本发明提出了基于ConvNeXt的多特征融合图片情感识别方法,主要涉及深度学习中提取和融合多尺度特征进行图片情感识别的问题。此方法同时考虑图片的局部和全局特征,更有效地对图片情感进行抽取。同时添加了注意力机制模块,提升了图片情感识别的准确度。首先,利用ConvNeXt网络提取图片的局部特征,并在其中引入CBAM模块对提取到的特征进行精炼。其次,由于卷积神经网络有一定的归纳偏置,所以同时使用VIT网络提取图片的全局情感特征。最后,将局部特征和全局特征进行融合,得到图片的情感分布。本发明充分考虑到图片的多尺度情感特征,引入CBAM模块改进网络,解决了图片情感识别中特征提取不充分的问题。
主权项:1.基于ConvNeXt的多特征融合图片情感识别方法,其特征在于:a.通过ConvNeXt网络提取图片局部的情感特征;b.通过VIT网络提取图片的深度全局情感特征,弥补卷积神经网络的归纳偏置;c.在ConvNeXt中引入CBAM注意力模块对其进行改进;d.用KL损失函数和交叉熵损失函数进行图片情感识别学习;该方法主要包括以下步骤:1数据预处理:将数据集中的图片短边缩放至224,长宽比保持不变,并以0.5的概率进行水平翻转;2局部特征提取:采用在ImageNet上预训练的ConvNeXt网络进行局部小尺度情感特征的提取,并引入CBAM注意力模块进行特征的精炼;3全局特征提取:采用基于Transformer结构的VIT网络学习各区域间的联系,在整体上学习图片的情感特征;4特征融合:将步骤2中提取的局部特征和步骤3提取的全局特征进行融合,拼接成更全面的多尺度特征;5图片情感识别:将步骤4中融合后的特征送入全连接层,获得图片的主导情绪分类和情感分布;6模型训练:以端到端方式,联合优化KL损失函数和交叉熵损失函数,实现模型训练。
全文数据:
权利要求:
百度查询: 四川大学 基于ConvNeXt的多特征融合图片情感识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。