买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于多尺度差异对抗的跨数据库语音情感识别方法及装置_东南大学_202011376020.0 

申请/专利权人:东南大学

申请日:2020-11-30

公开(公告)日:2024-04-30

公开(公告)号:CN112489689B

主分类号:G10L25/63

分类号:G10L25/63;G10L25/30;G06F16/65;G06F16/683;G06N3/0464;G06N3/049;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2021.03.30#实质审查的生效;2021.03.12#公开

摘要:本发明公开了一种基于多尺度差异对抗的跨数据库语音情感识别方法,方法包括:(1)获取多个语音情感数据库;(2)提取每一语音信号的全局IS10特征,提取全局特征;(3)将语音信号分成前后重叠50%的五段短片段并分别提取其IS10特征;(4)输入双向长短时间记忆模型,再输入注意力机制模型,输出作为局部特征;(5)将全局IS10特征和局部特征并联,提取联合特征;(6)建立神经网络,包括对应于上述三种尺度的三个领域判别器,和情感分类器;(7)训练神经网络,网络总损失为情感分类器损失减去三个领域判别器损失;(8)获取待识别语音信号的三种尺度特征,输入训练好的神经网络,得到预测的情感类别。本发明识别结果更准确。

主权项:1.一种基于多尺度差异对抗的跨数据库语音情感识别方法,其特征在于,该方法包括:1获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库;2对于源域数据库和目标域数据库中的每个语音信号,提取IS10low-level特征,然后利用卷积神经网络做为全局特征提取器提取深度特征,作为全局特征,特征提取器包括三层卷积层;3对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征;4将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征;5对于源域数据库和目标域数据库中的每个语音信号,将全局特征和局部特征并联,输入另一个卷积神经网络做为联合特征提取器提取深度特征,作为联合特征,特征提取器包括三层卷积层;6建立神经网络,所述神经网络包括对应于全局特征、局部特征和联合特征的三个领域判别器,和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别;7对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的局部特征,全局特征和联合特征分别混合起来作为三个样本,输入对应尺度的领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去三个领域判别器损失,通过反向传播算法更新网络参数,完成网络训练;8获取待识别语音信号的三种尺度特征,输入训练好的神经网络,得到预测的情感类别;步骤7中所述网络总损失为: 式中,表示网络总损失,λ为正则化乘数,其中: 形如表示领域判别器的交叉熵损失函数,分别表示局部尺度、全局尺度、联合尺度上的领域判别器的交叉熵损失函数,表示情感分类器交叉熵损失函数,di表示源域和目标域数据库中的语音信号的领域类别标签,分别是0和1;表示源域数据库中语音信号的情感类别标签,表示源域、目标域数据库中语音信号的全局特征,表示源域、目标域数据库中语音信号的局部特征,表示源域、目标域数据库中语音信号的联合特征;Fg、Fl、Fh表示三种尺度上的特征提取器;Dg、Dl、Dh表示三种尺度上的领域判别器;网络训练目的是最小化网络总损失函数。

全文数据:

权利要求:

百度查询: 东南大学 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。