买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用于语音转换的可控说话者音频表示的方法及装置_清华大学_202410063968.2 

申请/专利权人:清华大学

申请日:2024-01-17

公开(公告)日:2024-04-05

公开(公告)号:CN117594051B

主分类号:G10L21/007

分类号:G10L21/007;G10L21/013;G10L25/03;G10L25/30;G06N20/00;G06N3/0464;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2024.03.12#实质审查的生效;2024.02.23#公开

摘要:本公开涉及一种用于语音转换的可控说话者音频表示的方法及装置,上述方法包括:基于机器学习模型,对目标说话对象的音频进行特征提取,得到作为目标说话对象音色参考基准的说话者表示向量;获取编码空间中用于编码说话者音色的基础编码向量;基于上述基础编码向量,对上述说话者表示向量进行跨模态特征表示和计算残差,并对逐轮累积的残差进行跨模态特征表示,将各轮次的跨模态特征表示的累加结果确定为说话者音色表示向量。由于脱离了不同音色特征采用基础编码向量进行各类音色的表示,具有广泛的适用性,有助于提升语音转换方法或语音转换模型面对训练未出现过的说话者的鲁棒性。

主权项:1.一种用于语音转换的可控说话者音频表示的方法,其特征在于,包括:基于机器学习模型,对目标说话对象的音频进行特征提取,得到作为目标说话对象音色参考基准的说话者表示向量;获取编码空间中用于编码说话者音色的基础编码向量;基于所述基础编码向量,对所述说话者表示向量进行跨模态特征表示和计算残差,并对逐轮累积的残差进行跨模态特征表示,将各轮次的跨模态特征表示的累加结果确定为说话者音色表示向量,包括:基于交叉注意力机制,利用所述基础编码向量生成键向量和值向量,将所述说话者的表示向量作为输入向量进行跨模态特征表示,得到嵌入特征向量,并计算所述输入向量与所述嵌入特征向量之间的残差,在所述残差大于阈值时,将所述残差作为下一轮的所述输入向量;其中,得到所述嵌入特征向量的过程采用以下表达式进行示意: 其中,E为嵌入特征向量,SWq为查询向量,S为说话者表示向量,Wq为查询向量的权重系数;CWk为键向量,C为基础编码向量的组合构成的矩阵,Wk为键向量的权重系数;CWv为值向量,Wv为值向量的权重系数;表示转置,ds为缩放因子,用于让分数的值更平滑,让梯度更稳定;Wo为投影向量,用于将嵌入特征向量投影到预设维度空间。

全文数据:

权利要求:

百度查询: 清华大学 用于语音转换的可控说话者音频表示的方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。