买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于填充渲染器以及编码器的说话人视觉配音方法及系统_思必驰科技股份有限公司_202311435626.0 

申请/专利权人:思必驰科技股份有限公司

申请日:2023-10-31

公开(公告)日:2024-02-13

公开(公告)号:CN117557797A

主分类号:G06V10/30

分类号:G06V10/30;G06V40/16;G06V10/774;G06N3/0464;G06N3/0455;H04N21/81;H04N21/44;H04N21/439;G10L13/02;G10L13/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.01#实质审查的生效;2024.02.13#公开

摘要:本发明实施例提供一种基于填充渲染器以及编码器的说话人视觉配音方法及系统。该方法包括:将说话人的多个参考面部图像输入至训练的语义编码器,得到语义潜在编码;利用基于Conformer的参考编码器从语义潜在编码中提取面向于说话人的面部纹理信息;利用音频编码器从配音音频中提取音频潜在编码;利用基于Conformer的运动生成器将面部纹理信息以及音频潜在编码映射处理,得到多个视觉潜在编码;将多个视觉潜在编码输入至训练的填充渲染器,预测出说话人讲述配音音频的多个合成图像;通过多个合成图像以及配音音频生成视觉配音的合成视频。本发明实施例减少对训练语料库的依赖,生成了无缝和易于理解的视觉配音视频。

主权项:1.一种用于视觉配音的填充渲染器的训练方法,包括:从视觉配音训练集中提取用于参考的第一图像以及只有面部区域的用于引导面部动作的第二图像;通过用于配音任务的遮罩以及噪声图像对所述第一图像中面部区域内的发音子区域加噪掩码处理,得到在掩码区域加噪的带噪第一图像;将所述第二图像输入至语义编码器,得到只提供面部动作信息的语义潜在编码;将所述带噪第一图像以及所述语义潜在编码输入至包括去噪扩散隐含模型的填充渲染器,得到预测的去噪面部图像;基于所述第一图像以及所述去噪面部图像确定的面部区域的损失函数,对所述语义编码器以及所述填充渲染器进行训练,得到用于视觉配音的填充渲染器。

全文数据:

权利要求:

百度查询: 思必驰科技股份有限公司 基于填充渲染器以及编码器的说话人视觉配音方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。