【发明公布】基于填充渲染器以及编码器的说话人视觉配音方法及系统_思必驰科技股份有限公司_202311435626.0

申请/专利权人：思必驰科技股份有限公司

申请日：2023-10-31

公开（公告）日：2024-02-13

公开（公告）号：CN117557797A

主分类号：G06V10/30

分类号：G06V10/30;G06V40/16;G06V10/774;G06N3/0464;G06N3/0455;H04N21/81;H04N21/44;H04N21/439;G10L13/02;G10L13/08

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.03.01#实质审查的生效;2024.02.13#公开

摘要：本发明实施例提供一种基于填充渲染器以及编码器的说话人视觉配音方法及系统。该方法包括：将说话人的多个参考面部图像输入至训练的语义编码器，得到语义潜在编码；利用基于Conformer的参考编码器从语义潜在编码中提取面向于说话人的面部纹理信息；利用音频编码器从配音音频中提取音频潜在编码；利用基于Conformer的运动生成器将面部纹理信息以及音频潜在编码映射处理，得到多个视觉潜在编码；将多个视觉潜在编码输入至训练的填充渲染器，预测出说话人讲述配音音频的多个合成图像；通过多个合成图像以及配音音频生成视觉配音的合成视频。本发明实施例减少对训练语料库的依赖，生成了无缝和易于理解的视觉配音视频。

主权项：1.一种用于视觉配音的填充渲染器的训练方法，包括：从视觉配音训练集中提取用于参考的第一图像以及只有面部区域的用于引导面部动作的第二图像；通过用于配音任务的遮罩以及噪声图像对所述第一图像中面部区域内的发音子区域加噪掩码处理，得到在掩码区域加噪的带噪第一图像；将所述第二图像输入至语义编码器，得到只提供面部动作信息的语义潜在编码；将所述带噪第一图像以及所述语义潜在编码输入至包括去噪扩散隐含模型的填充渲染器，得到预测的去噪面部图像；基于所述第一图像以及所述去噪面部图像确定的面部区域的损失函数，对所述语义编码器以及所述填充渲染器进行训练，得到用于视觉配音的填充渲染器。

全文数据：

权利要求：

百度查询：思必驰科技股份有限公司基于填充渲染器以及编码器的说话人视觉配音方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

下一篇：一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

相关技术

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种抑菌保暖女式羊绒大衣_安庆初颖数字科技有限公司_202322077610.9

电子设备_深圳市嘉晋实业有限公司_202322601396.2

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

龙图腾网&IPTOP

【发明公布】基于填充渲染器以及编码器的说话人视觉配音方法及系统_思必驰科技股份有限公司_202311435626.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务