【发明授权】跨讲话者风格转移语音合成_微软技术许可有限责任公司_202010177212.2

导航：龙图腾网> 最新专利技术> 跨讲话者风格转移语音合成_微软技术许可有限责任公司_202010177212.2

申请/专利权人：微软技术许可有限责任公司

申请日：2020-03-13

公开（公告）日：2024-03-12

公开（公告）号：CN113470615B

主分类号：G10L13/04

分类号：G10L13/04;G10L13/047;G10L13/08

优先权：

专利状态码：有效-授权

法律状态：2024.03.12#授权;2021.10.26#实质审查的生效;2021.10.01#公开

摘要：本公开提供了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。可以获得训练数据，所述训练数据包括与参考音频对应的文本、讲话者标识ID、风格ID、以及声学特征。可以通过所述风格编码器，基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练，以去除讲话者信息并保留风格信息。可以通过所述风格编码器，至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

主权项：1.一种用于训练声学模型的方法，所述声学模型用于实现跨讲话者风格转移并且至少包括风格编码器，所述方法包括：获得训练数据，所述训练数据包括与参考音频对应的文本、讲话者标识ID、风格ID、以及声学特征；通过所述风格编码器，基于所述声学特征来生成参考嵌入向量；至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练，以去除讲话者信息并保留风格信息；通过所述风格编码器，至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量；以及至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

全文数据：

权利要求：

百度查询：微软技术许可有限责任公司跨讲话者风格转移语音合成

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于扩展现实的控制方法、装置、电子设备和存储介质_北京字跳网络技术有限公司_202211449018.0

下一篇：一种制备质谱及使用方法_中国科学院大连化学物理研究所_202211443750.7

相关技术

基于扩展现实的控制方法、装置、电子设备和存储介质_北京字跳网络技术有限公司_202211449018.0

一种制备质谱及使用方法_中国科学院大连化学物理研究所_202211443750.7

消息传输方法、装置、终端、服务器及介质_中国移动通信有限公司研究院_202211446863.2

一种窗用铰链_深圳好博窗控技术股份有限公司_202211444340.4

对软件进行编译的方法、机器可读存储介质和电子设备_亿咖通(湖北)技术有限公司_202211448286.0

一次进风调节装置_瑞安市阀门一厂_202211443931.X

一种窗口控制方法和装置_北京京东振世信息技术有限公司_202010201559.6

一种等离子体刻蚀机的边缘进气喷嘴装置以及边缘进气控制方法_江苏鲁汶仪器股份有限公司_202211447765.0

一种电动黄油枪接头_永康市富宇汽保工具有限公司_202210924080.4

交互数据处理方法、装置、电子设备和存储介质_腾讯科技(深圳)有限公司_202211447693.X

一种胶线检测方法、装置、胶线检测设备及存储介质_苏州凌云光工业智能技术有限公司_202111033177.8

一种核酸基cGAS-STING免疫佐剂及其制备方法和应用_苏州大学_202211448507.4

龙图腾网&IPTOP

【发明授权】跨讲话者风格转移语音合成_微软技术许可有限责任公司_202010177212.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务