申请/专利权人:长春理工大学
申请日:2024-03-12
公开(公告)日:2024-04-26
公开(公告)号:CN117935761A
主分类号:G10H1/00
分类号:G10H1/00;G10L25/63
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.05.14#实质审查的生效;2024.04.26#公开
摘要:本发明属于音乐情感识别技术领域,具体为一种基于多模态特征融合的音乐情感识别方法。近年来有关音乐情感识别的研究得到了较大的进展,基于深度学习的方法被越来越多的科研人员广泛关注,但音乐作为信息的媒介,蕴含着丰富的情感信息,音乐情感本质上是多面性和多模态的,这使得深度学习方法很难从特定类型的音乐形式中分析音乐中蕴含的情感。针对在以往的音乐情感识别研究中,研究人员只关注音乐曲目的单一模态内容,分类识别精度受限等问题,本发明提出一种多模态特征融合的音乐情感识别方法,具体来说,本发明方法构建声学模态部分与符号模态部分,分别进行MIDI符号数据和WAV音频数据的特征提取,然后将从MIDI数据和WAV音频数据中提取的各种具有情感意义的符号特征和声学特征通过跨模态注意力机制进行多模态特征融合,最后将得到的融合多模态特征通过全连接层输出最终的情感分类结果。本发明能够提高音乐情感识别的精度。
主权项:1.一种基于多模态特征融合的音乐情感识别方法,其特征是:该方法由以下步骤实现:步骤一、下载开源EMOPIA情感音乐数据集,将数据集按照7:2:1划分为训练集、验证集与测试集,并对所有数据集进行预处理。步骤二、基于WAV音频音乐与MIDI符号音乐构建声学模态部分与符号模态部分。步骤三、声学模态部分具体为基于2D-ConvNet网络通过引入多级跳跃连接构建ResNet2D残差卷积网络来提取WAV格式音乐的声学特征;符号模态部分具体为采用BiGRU网络并引入注意力机制提取MIDI格式音乐的符号特征。步骤四、构建跨模态注意力模块将声学特征与符号特征进行跨模态特征融合,通过全连接层输出情感分类的结果,所述音乐情感类别包括快乐Q1、愤怒Q2、悲伤Q3、放松Q44种音乐。步骤五、设置训练超参数,使用多模态特征融合网络模型训练数据集,直到网络收敛,得到训练完备的音乐情感识别模型,并得到准确率Accuracy、精准度Precision、召回率Recall、F1值F1-Score。步骤六、使用测试集再次对网络模型进行测试,完成音乐情感识别任务,将待测音乐输入训练得到的最佳网络模型,输出音乐情感类别Q1、Q2、Q3、Q4。
全文数据:
权利要求:
百度查询: 长春理工大学 一种基于多模态特征融合的音乐情感识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。