买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于跨梯度训练的情感说话人认证方法_华南理工大学_202111483807.1 

申请/专利权人:华南理工大学

申请日:2021-12-07

公开(公告)日:2024-04-02

公开(公告)号:CN114357414B

主分类号:G06F21/32

分类号:G06F21/32;G10L15/02;G10L15/16;G10L25/30;G10L25/63;G06N3/045;G06N3/0442;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2022.05.03#实质审查的生效;2022.04.15#公开

摘要:本发明公开了一种基于跨梯度训练的情感说话人认证方法,该方法的步骤包括:基于x‑vector系统结合多任务学习搭建网络模型;对训练语音提取声学特征;随机挑选一批训练语音样本的特征序列作为网络输入,同时进行情感分类和说话人分类,通过两个任务的联合损失调整网络参数;利用情感分类部分的损失函数更新特征序列;进行跨梯度训练,再次调整说话人分类部分的网络参数;网络训练完成后设定认证阈值即可进行说话人认证。针对说话人认证系统在注册语音和测试语音情感不匹配时性能下降的问题,结合多任务学习,本发明利用跨梯度训练,对训练数据的情感信息进行扩充,提高了情感语音的说话人认证性能,缓解了在小数据量训练集上的过拟合程度。

主权项:1.一种基于跨梯度训练的情感说话人认证方法,其特征在于,包括下述步骤:基于x-vector系统架构,利用TDNN-BiLSTM网络结合多任务学习搭建提取说话人声纹特征的网络模型;对网络训练所需的语音样本提取声学特征;随机筛选带有情感色彩的语音样本输入网络模型进行训练,进行情绪分类训练任务和说话人分类训练任务,将两个训练任务的损失进行平衡,构建多任务学习的联合损失,进行网络模型参数的调整;所述将两个训练任务的损失进行平衡,构建多任务学习的联合损失,具体步骤包括:将带有情感色彩的语音样本对应的原始特征序列作为输入,分别计算说话人分类分支和情感分类分支对应的交叉熵损失: 其中,x为语音样本提取fbank特征后对应的特征序列,即神经网络的输入,W为整体的网络模型参数,x对应的说话人标签为ys,对应的情感标签为ye,fWx是输入为x时网络模型的预测输出结果,是输入为x时网络模型预测的说话人分类结果,是输入为x时网络模型预测的情感分类结果;对不同任务引入不同的参数δ对神经网络两个分支的输出结果进行尺度变化后,则有: 引入不同的参数δ时,多任务学习的联合损失为: 其中,δs为说话人分类损失的权重参数,δe为情感分类损失的权重参数;利用网络自动学习参数μ=logδ2的取值,构建最终的联合损失函数为: 其中,μs是说话人分类任务相关的参数,μe是情感分类任务相关的参数;跨梯度训练,通过给原始语音样本的特征序列叠加情感领域的扰动得到新的特征序列,将得到的新的特征序列输入网络模型再次进行说话人分类任务网络参数的调整;所述通过给原始语音样本的特征序列叠加情感领域的扰动得到新的特征序列,具体步骤包括:将带有情感色彩的语音样本对应的原始特征序列作为输入,计算情感分类分支对应的交叉熵损失: 其中,x为语音样本提取fbank特征后对应的特征序列,即神经网络的输入,W为整体的网络模型参数,x对应的情感标签为ye,fWx是输入为x时网络模型的预测输出结果,是输入为x时网络模型预测的情感分类结果;所述情感领域的扰动通过计算情感分类部分的交叉熵损失值关于原始输入样本的特征序列的雅可比矩阵获得,原始输入样本的特征序列x叠加该扰动得到的新特征序列xe: 其中,CELossex表示x作为网络输入在情感分类部分的损失值,∈表示扰动系数;重复训练步骤直至训练结束,网络模型训练完成后,保留说话人分类任务的网络结构进行说话人认证,选择说话人分类任务的网络结构中间层输出作为说话人的声纹特征,计算注册者的声纹模板和测试者的声纹特征的余弦相似度进行说话人认证。

全文数据:

权利要求:

百度查询: 华南理工大学 一种基于跨梯度训练的情感说话人认证方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。