申请/专利权人:中国电信股份有限公司
申请日:2023-12-29
公开(公告)日:2024-04-09
公开(公告)号:CN117854522A
主分类号:G10L21/007
分类号:G10L21/007;G10L25/18;G10L25/30
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.26#实质审查的生效;2024.04.09#公开
摘要:本申请公开了一种方法及装置、非易失性存储介质、电子设备。其中,方法包括:根据第一特征和第二特征确定原始音频的内容特征;利用预训练的目标基频预测模型对原始音频的基频、静音标识、内容特征以及说话人特征进行处理,得到原始音频对应的预测基频;利用先验编码器确定内容特征、预测基频以及静音标识对应的第一分布函数,并利用预训练的流模块确定第一分布函数和说话人特征对应的第二分布函数;利用预训练的目标解码器对第二分布函数、说话人特征和或校正后的预测基频进行处理,得到转化音频。本申请解决了由于相关的声音转换方法需要对转换模型和声码器分别进行训练,以确定待转换音频对应的目标音频,造成声音转换效率较低的技术问题。
主权项:1.一种声音转换方法,其特征在于,包括:提取第一预设音频训练集对应的第一特征,并提取原始音频对应的第二特征,根据所述第一特征和所述第二特征确定所述原始音频的内容特征;利用第一预训练的说话人编码器从目标音频中提取说话人特征,并利用预训练的目标基频预测模型对所述原始音频的基频、静音标识、所述内容特征以及所述说话人特征进行处理,得到所述原始音频对应的预测基频,其中,所述目标音频的音色为所述原始音频所待转化的,所述第一预设音频训练集中的发音人与所述目标音频的发音人相同;利用先验编码器确定所述内容特征、所述预测基频以及所述静音标识对应的第一分布函数,并利用预训练的流模块确定所述第一分布函数和所述说话人特征对应的第二分布函数;利用预训练的目标解码器对所述第二分布函数、所述说话人特征和或校正后的所述预测基频进行处理,得到转化音频,其中,所述转化音频的内容与所述原始音频的内容相同,所述转化音频的音色与所述目标音频的音色相同。
全文数据:
权利要求:
百度查询: 中国电信股份有限公司 方法及装置、非易失性存储介质、电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。