买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于常识推理的语音合成模型训练方法、装置及合成方法_北京邮电大学_202311071256.7 

申请/专利权人:北京邮电大学

申请日:2023-08-24

公开(公告)日:2024-03-19

公开(公告)号:CN117238275B

主分类号:G10L13/08

分类号:G10L13/08;G10L25/24;G10L25/63

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2024.01.02#实质审查的生效;2023.12.15#公开

摘要:本申请提供一种基于常识推理的语音合成模型训练方法、装置及合成方法,所述训练方法包括:从数据集中确定目标对话语音对应的目标对话文本以及目标对话人标识以及多个历史对话文本、历史语音以及历史对话人标识;基于目标对话文本和目标对话人标识得到目标对话文本向量;并基于各个历史对话文本、历史语音、历史对话人标识,以及目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量;基于目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音;基于上述内容进行模型训练得到对话语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。

主权项:1.一种基于常识推理的语音合成模型训练方法,其特征在于,包括:从数据集中确定目标对话语音对应的目标对话文本以及该目标对话文本的目标对话人标识;并从所述数据集中选取在所述目标对话文本之前的多个历史语音、多个历史对话人标识以及各个所述历史语音各自对应的历史对话文本;基于所述目标对话文本和目标对话人标识得到目标对话文本向量;并基于各个所述历史对话文本、历史语音、历史对话人标识,以及所述目标对话文本、预先获取的常识推理训练模型和预设的多模态上下文关联模块得到情感状态嵌入向量;基于所述目标对话文本向量和情感状态嵌入向量得到目标对话文本合成语音;基于所述目标对话文本、目标对话人标识、各个历史对话文本、各个历史语音、各个历史对话人标识和目标对话文本合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标对话文本合成语音的损失,并基于该损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的对话语音合成模型;其中,所述基于各个所述历史对话文本、历史语音、历史对话人标识,以及所述目标对话文本和预设的多模态上下文关联模块得到情感状态嵌入向量,包括:将各个所述历史对话文本和所述目标对话文本输入预先获取的文本训练模型中以输出得到各个所述历史对话文本各自对应的历史对话文本向量和所述目标对话文本对应的当前目标对话文本向量;将各个所述历史对话文本和所述目标对话文本输入所述常识推理训练模型中以输出得到各个所述历史对话文本各自对应的历史常识向量和所述目标对话文本对应的目标常识向量;将各个所述历史语音输入预先获取的语音训练模型中以输出得到各自对应的历史语音向量;将各个所述历史对话文本向量、历史常识向量、历史语音向量和历史对话人标识,以及所述目标常识向量和当前目标对话文本向量输入所述多模态上下文关联模块,以输出得到所述情感状态嵌入向量。

全文数据:

权利要求:

百度查询: 北京邮电大学 基于常识推理的语音合成模型训练方法、装置及合成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。