买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于语音和人脸图像的跨膜态生成方法_天津大学_202011352382.6 

申请/专利权人:天津大学

申请日:2020-11-27

公开(公告)日:2021-02-19

公开(公告)号:CN112381040A

主分类号:G06K9/00(20060101)

分类号:G06K9/00(20060101);G06K9/62(20060101);G10L13/027(20130101);G10L13/08(20130101);G06N3/04(20060101)

优先权:

专利状态码:有效-授权

法律状态:2022.09.27#授权;2021.03.09#实质审查的生效;2021.02.19#公开

摘要:本发明涉及基于语音和人脸图像的跨膜态生成方法,包括语音重建人脸及人脸图像的个性化语音合成。语音重建人脸提出了基于残差先验的语音重建人脸模型,根据输入一段未知语音生成该人物的人脸。人脸图像的个性化语音合成提出了基于残差先验的人脸图像个性化语音合成模型,根据给定的人脸图像和一段文本,合成出该人物的语音。本发明设计科学合理,语音重建人脸模型的效果能生成与原始人脸非常相似的人脸图像,并且具有很强的鲁棒性,生成的人脸并不是固定的几个,而是输入任意一个说话人的语音,都能重建出与该说话人相似的人脸。残差先验人脸图像个性化语音合成模型也是根据任一人脸图像合成该人物的语音。此外,提出的残差先验知识的方法能够加速模型的收敛,达到更好的效果。

主权项:1.一种基于语音和人脸图像的跨膜态生成方法,其特征在于:所述方法包括基于残差先验的语音重建人脸及残差先验的人脸图像个性化语音合成;所述残差先验的语音重建人脸的步骤为:S1、用预训练好的VGGFace模型提取人脸特征;S2、训练人脸特征解码器网络,设计人脸特征解码器网络,该网络能通过VGGFace模型提取出来的人脸特征,利用转置卷积上采样将人脸特征还原到人脸图像;S3、引入先验面部特征,利用残差思维补充面部的主要相似部分,即先验面部特征,从而突出显示语音特征所描绘的微小变化;S4、训练语音特征提取网络,训练时,输入语音和对应的人脸图像,预训练好的VGGFace模型提取人脸特征去指导语音特征提取网络学习提取语音特征,将语音特征和上一步在训练之前计算得到的先验面部特征相加,得到最终的特征,送入到人脸特征解码网络里得到生成的人脸。所述残差先验的人脸图像个性化语音合成的步骤为:S1、训练语音编码网络,该网络是基于说话者验证任务的准确且可扩展的神经网络结构,网络根据任意长度的语音计算出的对数梅尔频谱图帧映射到固定维嵌入向量;S2、训练语音合成器网络,该网络主要用于对语音频谱图进行预测,结构包括编码器和解码器,编码器将输入的字符进行编码和上一步提取到的语音特征拼接,然后再输入到解码器中,以此来预测频谱图;S3、引入先验语音特征,利用残差的想法来补充语音的主要相似部分,即先验语音特征;S4、训练人脸特征提取网络,通过步骤S1提取到的语音特征去指导该网络提取人脸特征;S5、输入一张人脸图片及和指定文本,人脸图片输入到人脸特征提取网络,文本输入到语音合成网络,将提取的人练特征和文本编码向量拼接,生成梅尔谱图,在将梅尔谱图输入到预训练好的声码器里,合成语音。

全文数据:

权利要求:

百度查询: 天津大学 一种基于语音和人脸图像的跨膜态生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。