买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于短时谱一致性的神经网络声码器训练方法_中国科学技术大学_202011482467.6 

申请/专利权人:中国科学技术大学

申请日:2020-12-15

公开(公告)日:2024-03-29

公开(公告)号:CN112634914B

主分类号:G10L19/16

分类号:G10L19/16;G10L25/30;G10L13/02

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2021.04.27#实质审查的生效;2021.04.09#公开

摘要:本发明公开了一种基于短时谱一致性的神经网络声码器训练方法,包括:使用自然声学特征和自然对数幅度谱训练幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器;将训练后的幅度谱预测器和相位谱预测器进行连接,通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器;本发明提供的神经网络声码器训练方法,首先分别训练幅度谱预测器和相位谱预测器,最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器,能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题,进而提高合成语音的质量。

主权项:1.一种基于短时谱一致性的神经网络声码器训练方法,其中,所述神经网络声码器包括幅度谱预测器和相位谱预测器,其特征在于,包括:使用自然声学特征和自然对数幅度谱训练所述幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练所述相位谱预测器;将训练后的所述幅度谱预测器和所述相位谱预测器进行连接,通过所述自然声学特征、所述自然对数幅度谱、所述自然基频和所述自然波形训练连接后的所述幅度谱预测器和所述相位谱预测器,包括:所述幅度谱预测器根据输入的所述自然声学特征输出第二预测对数幅度谱;所述相位谱预测器根据输入的所述第二预测对数幅度谱和所述自然基频提取预测相位谱;将所述第二预测对数幅度谱和所述预测相位谱组合得到预测短时谱;通过对所述预测短时谱计算得到预测短时谱一致性损失函数;通过联合损失函数对所述幅度谱预测器和所述相位谱预测器进行训练;其中:所述联合损失函数为所述预测短时谱一致性损失函数、幅度谱预测器损失函数和相位谱预测器损失函数之和;其中,通过对自然波形进行特征提取得到所述自然声学特征和所述自然基频,对所述自然波形进行短时傅里叶变换得到所述自然对数幅度谱,所述自然波形为用于模型训练的真实录音的语音波形。

全文数据:

权利要求:

百度查询: 中国科学技术大学 基于短时谱一致性的神经网络声码器训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。