买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于低级语音特征融合的语音情感识别方法_电子科技大学_202311190579.8 

申请/专利权人:电子科技大学

申请日:2023-09-14

公开(公告)日:2023-12-05

公开(公告)号:CN117174110A

主分类号:G10L25/30

分类号:G10L25/30;G10L25/63;G10L25/03

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.12.22#实质审查的生效;2023.12.05#公开

摘要:本发明公开了一种基于低级语音特征融合的语音情感识别方法,在语音情感识别的基础上,提出了一个双流池化通道注意力模块学习隐藏在低级语音特征中的情感特征,并设计了一个简洁有效的双视图特征融合策略对语音预训练模型提取的高级语音特征和从低级语音特征中学习到的情感特征进行联合学习并完成情感识别,明显的提升了语音情感识别的准确度。同时,本发明仅使用两种语音特征的语音情感识别方法,避免了使用大量的语音特征,采用双流池化通道注意力模块来学习隐藏在低级语音特征中的情感特征,避免了过度依赖对预训练模型的微调,采用简洁的语音特征融合策略,避免了过于复杂的特征视图融合过程。

主权项:1.一种基于低级语音特征融合的语音情感识别方法,其特征在于,包括以下步骤:1、提取低级语音特征以及高级语音特征1.1、将每一个语音信号按照相同时间长度t分成多个语音片段,其中,对于语音信号不是时间长度t整数倍的情况下,在语音信号前或后,使用0进行填充,确保每个语音片段具有时间长度,分出的每个语音片段与其对应的语音信号具有相同的情感标签;1.2、对于每一个语音片段vi,分别提取出低级语音特征fiL以及高级语音特征fiH,i为语音片段的序号,高级语音特征R表示实数空间,2、从低级语音特征中提取多尺度特征2.1、对低级语音特征fiL进行L2正则化,得到低级语音特征fiL_L2;2.2、使用双向LSTM从低级语音特征fiL_L2中学习得到情感相关序列特征fiL_LSTM;2.3、使用三个有着不同尺度卷积核的二维卷积从情感相关序列特征fiL_LSTM中学习得到不同侧重的三个尺度的特征fiL_S1、fiL_S2、fiL_S3;2.4、三个尺度的特征fiL_S1、fiL_S2、fiL_S3分别送入三个平行的二维卷积中学习重要的局部特征,得到三个局部特征fiL_LC1、fiL_LC2、fiL_LC3;2.5、三个局部特征fiL_LC1、fiL_LC2、fiL_LC3拼接起来,得到特征并输出到双流池化通道注意力模块,其中,特征C为通道维度,H为高度维度,W宽度维度;3、构建双流池化通道注意力模块所述双流池化通道注意力模块包含两个有着相同实现机制的分支,分别为GAP流通道注意力分支和GMP流通道注意力分支;3.1、构建GAP流通道注意力分支3.1.1、使用二维全局平均池化即2d-GAP将输入双流池化通道注意力模块的特征的高度维度H和宽度维度W压缩为1,仅保留通道维度C,得到的输出为特征3.1.2、对特征使用一维卷积实现跨通道的交互以及避免通道维度的减少,捕获通道间的有效区域,一维卷积得到的输出为特征特征为3.1.3、对特征使用双向LSTM从两个方向捕获语音片段中与情感相关的序列信息,双向LSTM得到的输出为特征特征为3.1.4、使用矩阵乘法算子来融合特征和特征得到融合特征fiL_cs: 其中,为矩阵乘法操作;3.1.5、对融合特征fiL_cs使用一维全局平均池化即1d-GAP沿着通道维度聚合,生成特征fiL_gap,特征fiL_gap∈RC×1;3.1.6、使用一个瓶颈结构层来学习特征fiL_gap中的通道权重wi,该瓶颈结构层由结合了ReLU和Sigmoid激活函数的两个完全连接层组成,其公式定义如下:wi=σW2δW1fiL_gap2在公式2中,σ指的是Sigmoid函数,δ指的是ReLU函数,和是可学习参数矩阵;3.1.7、设定GAP流通道注意力分支的输出为特征表示为其中,第n个元素为: 其中,wi_n为通道权重wi的第n个元素,为特征的第n个元素;3.2、构建GMP流通道注意力分支3.2.1、使用二维全局最大池化即2d-GMP将输入双流池化通道注意力模块的特征的高度维度H和宽度维度W压缩为1,仅保留通道维度C,得到的输出为特征3.2.2、将步骤3.1.5中的一维全局平均池化即1d-GAP替换为一维全局最大池化即1d-GMP,然后采用步骤3.1.2到3.1.7的方法,对特征进行处理,得到GMP流通道注意力分支的输出3.3、将特征与特征逐元素相加,得到双流池化通道注意力的输出即特征4、获取情感相关特征首先使用二维全局平均池化即2d-GAP将特征的高度维度H和宽度维度W压缩为1,仅保留通道维度C,得到的输出为特征然后使用一个完全连接层将维度转换为d1,并做转置得到情感相关特征5、构建简洁的特征融合策略进行情感状态识别首先使用基于矩阵乘法算子的方法融合高级语音特征fiH与情感相关特征fiSE,得到融合后的语音特征fiunite: 在公式4中,为可学习参数矩阵,d3表示维度,r为需要识别的情感状态的数量;然后,采用多个完全连接层构成的分类器,对语音特征fiunite进行情感分类,从而识别出相应的情感状态;6、训练对带有情感标签的语音信号,按照步骤1-5的方法进行处理,并使用交叉熵损失函数Lce与多分类合页损失函数Lmml的和作为损失整个学习训练的损失函数Lco对处理过程中的可学习参数进行更新,直到满足要求;7、语音情感识别当可学习参数进行更新即训练完成后,对一段需要进行情感识别的语音信号截取时间长度t的一个语音片段,然后按照步骤1.2至步骤5的方法进行情感状态识别,得到该段语音信号的情感状态。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于低级语音特征融合的语音情感识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。