【发明授权】用于语音转换的可控说话者音频表示的方法及装置_清华大学_202410063968.2

导航：龙图腾网> 最新专利技术> 用于语音转换的可控说话者音频表示的方法及装置_清华大学_202410063968.2

申请/专利权人：清华大学

申请日：2024-01-17

公开（公告）日：2024-04-05

公开（公告）号：CN117594051B

主分类号：G10L21/007

分类号：G10L21/007;G10L21/013;G10L25/03;G10L25/30;G06N20/00;G06N3/0464;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.04.05#授权;2024.03.12#实质审查的生效;2024.02.23#公开

摘要：本公开涉及一种用于语音转换的可控说话者音频表示的方法及装置，上述方法包括：基于机器学习模型，对目标说话对象的音频进行特征提取，得到作为目标说话对象音色参考基准的说话者表示向量；获取编码空间中用于编码说话者音色的基础编码向量；基于上述基础编码向量，对上述说话者表示向量进行跨模态特征表示和计算残差，并对逐轮累积的残差进行跨模态特征表示，将各轮次的跨模态特征表示的累加结果确定为说话者音色表示向量。由于脱离了不同音色特征采用基础编码向量进行各类音色的表示，具有广泛的适用性，有助于提升语音转换方法或语音转换模型面对训练未出现过的说话者的鲁棒性。

主权项：1.一种用于语音转换的可控说话者音频表示的方法，其特征在于，包括：基于机器学习模型，对目标说话对象的音频进行特征提取，得到作为目标说话对象音色参考基准的说话者表示向量；获取编码空间中用于编码说话者音色的基础编码向量；基于所述基础编码向量，对所述说话者表示向量进行跨模态特征表示和计算残差，并对逐轮累积的残差进行跨模态特征表示，将各轮次的跨模态特征表示的累加结果确定为说话者音色表示向量，包括：基于交叉注意力机制，利用所述基础编码向量生成键向量和值向量，将所述说话者的表示向量作为输入向量进行跨模态特征表示，得到嵌入特征向量，并计算所述输入向量与所述嵌入特征向量之间的残差，在所述残差大于阈值时，将所述残差作为下一轮的所述输入向量；其中，得到所述嵌入特征向量的过程采用以下表达式进行示意：其中，E为嵌入特征向量，SWq为查询向量，S为说话者表示向量，Wq为查询向量的权重系数；CWk为键向量，C为基础编码向量的组合构成的矩阵，Wk为键向量的权重系数；CWv为值向量，Wv为值向量的权重系数；表示转置，ds为缩放因子，用于让分数的值更平滑，让梯度更稳定；Wo为投影向量，用于将嵌入特征向量投影到预设维度空间。

全文数据：

权利要求：

百度查询：清华大学用于语音转换的可控说话者音频表示的方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

下一篇：一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

相关技术

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

一种特殊持力层道路施工结构_中建六局土木工程有限公司_202023112178.5

一种对氟甲苯制备用精馏设备_湖北联昌新材料有限公司_202322580010.4

一种无缝钢管送料设备_宁波东进钢管有限公司_202322167126.5

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

龙图腾网&IPTOP

【发明授权】用于语音转换的可控说话者音频表示的方法及装置_清华大学_202410063968.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务