买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于声学后验概率的任意说话人语音转换系统及方法_江苏清微智能科技有限公司_202011057900.1 

申请/专利权人:江苏清微智能科技有限公司

申请日:2020-09-29

公开(公告)日:2024-04-16

公开(公告)号:CN112634918B

主分类号:G10L21/013

分类号:G10L21/013;G10L15/06;G10L13/02;G10L19/16

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2024.02.13#著录事项变更;2021.04.27#实质审查的生效;2021.04.09#公开

摘要:本发明公开一种基于声学后验概率的任意说话人语音转换系统及方法,属于基于深度学习的语音转换的技术技术领域。包括:一个语音识别模型、一个多说话人数据集、一个语音转换模型、一个目标说话人数据集和一个LPCNet声码器;预训练一个语音转换模型,自适应训练所述语音转换模型,通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。本发明解决了现有技术中语音转换只能完成特定说话人之间且质量较低的问题。

主权项:1.一种基于声学后验概率的任意说话人语音转换方法,其特征是,预设一个维度为说话人个数*预设向量维度的二维查找表参数空间,说话人编码012从查找表中直接取出指定行的参数为所述说话人向量;语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点,包括:S101,配置一个语音识别模型,所述语音识别模型包括六层时延神经网络;所述时延神经网络是一种多层神经网络,所述时延神经网络能够用于区分平移不变性;S102,配置一个多说话人数据集;所述多说话人数据集能够通过语音识别模型提取所述多说话人数据集中每句话对应的声学后验概率;S103,对所述多说话人数据集中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码;S104,预训练一个语音转换模型,其配置为能够接收所述声学后验概率和查表编码;所述语音转换模型能够根据接收到的所述声学后验概率和所述查表编码预训练;所述语音转换模型的深度神经网结构层前后添加说话人编码层,将编码后的所述说话人向量和声学后验概率特征向量在数据特征维度进行拼接,使得语音转换模型能够更好的区分不同的说话人;S105,配置一个目标说话人数据集;S106,自适应训练所述语音转换模型,所述语音转换模型能够根据所述目标说话人数据集少量数据自适应参数更新;通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练;S107,在预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行更新,使其向目标说话人进行迁移;S108,通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换;S109,通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。

全文数据:

权利要求:

百度查询: 江苏清微智能科技有限公司 一种基于声学后验概率的任意说话人语音转换系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。