【发明公布】基于多模态三维可塑模型的单样本说话人生成方法及系统_山东建筑大学_202311755401.3

导航：龙图腾网> 最新专利技术> 基于多模态三维可塑模型的单样本说话人生成方法及系统_山东建筑大学_202311755401.3

申请/专利权人：山东建筑大学

申请日：2023-12-18

公开（公告）日：2024-03-22

公开（公告）号：CN117750153A

主分类号：H04N21/81

分类号：H04N21/81;G10L25/63;G10L25/57;G10L25/30;G10L15/25;G10L15/183

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.09#实质审查的生效;2024.03.22#公开

摘要：本公开提供了基于多模态三维可塑模型的单样本说话人生成方法及系统，涉及说话人生成技术领域，获取音频以及参考图像，输入至多模态3DMM参数预测网络模型中，首先提取音频特征以及文本特征，并对音频特征以及文本特征进行上下文特征增强，得到注入上下文信息的音频表征和语义表征；获取初始的头部姿态嵌入参数以及初始表情描述，利用初始的头部姿态嵌入参数预测下一时刻的头部姿态参数；利用初始表情描述预测下一时刻表情参数，将预测的头部姿态参数和表情参数融合嵌入至参考图像中，通过视频合成网络将多帧图像合成说话人的头部视频序列。

主权项：1.基于多模态三维可塑模型的单样本说话人生成方法，其特征在于，包括：获取音频数据和参考图像，将音频数据输入至多模态3DMM参数预测网络模型中，首先提取音频特征以及文本特征，并对音频特征以及文本特征进行上下文特征增强，得到注入上下文信息的音频表征和语义表征；利用参考图像获取初始的头部姿态嵌入参数以及初始表情描述，利用初始的头部姿态嵌入参数和下一时刻音频表征以及语义表征融合预测下一时刻的头部姿态参数；利用初始表情描述融合下一时刻音频表征预测下一时刻表情参数；将预测的头部姿态参数和表情参数融合嵌入至参考图像中，通过视频合成网络将多帧图像合成说话人的头部视频序列。

全文数据：

权利要求：

百度查询：山东建筑大学基于多模态三维可塑模型的单样本说话人生成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

下一篇：一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

相关技术

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种特殊持力层道路施工结构_中建六局土木工程有限公司_202023112178.5

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

龙图腾网&IPTOP

【发明公布】基于多模态三维可塑模型的单样本说话人生成方法及系统_山东建筑大学_202311755401.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务