申请/专利权人:多益网络有限公司;广州多益网络股份有限公司;广东利为网络科技有限公司
申请日:2021-06-03
公开(公告)日:2024-04-23
公开(公告)号:CN113327576B
主分类号:G10L13/08
分类号:G10L13/08;G10L25/30;G10L25/18
优先权:
专利状态码:有效-授权
法律状态:2024.04.23#授权;2021.09.17#实质审查的生效;2021.08.31#公开
摘要:本发明提供了一种语音合成方法、装置、设备及存储介质,该方法包括:将待处理的文本数据的每个字转成相应的音素;根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。本发明能有效提高语音合成的效果,使得合成的音频更加自然、真实,同时能提高语音合成的推理速度。
主权项:1.一种语音合成方法,其特征在于,包括:将待处理的文本数据的每个字转成相应的音素;根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频;所述方法还包括以下所述声学模型训练步骤:将预先采集的文本样本的每个字转成相应的音素;根据所述音素与数值映射字典,将所述文本样本的每个音素转换成音素数值;获取所述文本样本的每个音素的音频特征;根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量;以所述文本样本的音素向量和音素数值为训练集,对神经网络模型进行训练,得到所述声学模型;所述根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量,包括:获取属于第i种音素的所有音频特征,并计算第i种音素的所有音频特征中的最大音频长度;根据所述最大音频长度,对第i种音素的所有音频特征进行插值处理;其中,插值后的音频特征的长度等于所述最大音频长度;根据每个音素插值后的音频特征,得到音素向量。
全文数据:
权利要求:
百度查询: 多益网络有限公司;广州多益网络股份有限公司;广东利为网络科技有限公司 语音合成方法、装置、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。