【发明公布】嘴型模型的训练方法、装置及嘴型的生成方法及装置_世优(北京)科技有限公司_202311520307.X

申请/专利权人：世优(北京)科技有限公司

申请日：2023-11-14

公开（公告）日：2024-03-22

公开（公告）号：CN117746886A

主分类号：G10L21/10

分类号：G10L21/10;G06V40/16;G06V10/82;G06N3/0464;G10L21/18;G10L25/30;G10L25/18;G10L25/24

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.09#实质审查的生效;2024.03.22#公开

摘要：本申请提供了一种嘴型模型的训练方法、装置及嘴型的生成方法及装置，其中，该训练方法包括：获取包含数字人的面部的第一面部图片；从包含目标人物的视频中，提取出包含所述目标人物的脸部的第二面部图片并提取出和所述第二面部图片对应的音频向量；对所述第二面部图片进行处理，使得所述第二面部图片中包括从所述视频中提取到的不同状态下的多张不同类型嘴部信息；对所述第一面部图片和处理后的所述第二面部图片进行图像编码，并对所述音频向量进行音频编码；利用解码器对经图像编码后得到的图像数据以及经音频编码后得到的音频数据进行解码，得到第三面部图片；比较所述第一面部图片和所述第三面部图片之间的损失，并基于所述损失训练嘴型模型。

主权项：1.一种嘴型模型的训练方法，其特征在于，包括：获取包含数字人的面部的第一面部图片；从包含目标人物的视频中，提取出包含所述目标人物的脸部的第二面部图片并提取出和所述第二面部图片对应的音频向量；对所述第二面部图片进行处理，使得所述第二面部图片中包括从所述视频中提取到的不同状态下的多张不同类型嘴部信息；对所述第一面部图片和处理后的所述第二面部图片进行图像编码，并对所述音频向量进行音频编码；利用解码器对经图像编码后得到的图像数据以及经音频编码后得到的音频数据进行解码，得到第三面部图片；比较所述第一面部图片和所述第三面部图片之间的损失，并基于所述损失训练嘴型模型。

全文数据：

权利要求：

百度查询：世优(北京)科技有限公司嘴型模型的训练方法、装置及嘴型的生成方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

下一篇：一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

相关技术

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种机柜_珠海冠宇动力电源有限公司_202322495779.6

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种特殊持力层道路施工结构_中建六局土木工程有限公司_202023112178.5

磨豆压力咖啡机自动压粉机构_浙江比依电器股份有限公司_202322521989.8

一种万寿菊用大型烘干机_丘北立达尔生物科技有限公司_202322498434.6

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种园林绿化便携铲_马丽丽_202322375183.2

龙图腾网&IPTOP

【发明公布】嘴型模型的训练方法、装置及嘴型的生成方法及装置_世优(北京)科技有限公司_202311520307.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务