买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于扩散模型的音乐条件化舞蹈动画生成方法_江西师范大学_202410146031.1 

申请/专利权人:江西师范大学

申请日:2024-02-02

公开(公告)日:2024-03-15

公开(公告)号:CN117710533A

主分类号:G06T13/00

分类号:G06T13/00;G06N3/0464;G06N3/0455;G06F18/10;G06F18/25;H04N21/44;H04N21/81

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.02#实质审查的生效;2024.03.15#公开

摘要:本发明公开了一种基于扩散模型的音乐条件化舞蹈动画生成方法,获取数据集并构建符合数据集中舞蹈视频的文本提示,将舞蹈视频切分成音乐片段和视频片段,从视频片段中第一帧、最后一帧分别得到表演者图像、源舞蹈动画片段,对获取的文本提示、音乐片段和表演者图像进行编码得到不同潜在特征,对源舞蹈动画片段添加一定时间步长、符合标准正态分布的噪声,将得到的不同潜在特征对添加的噪声进行预测得到去噪后的目标舞蹈动画片段潜在空间特征,通过预训练VAE模型对目标舞蹈动画片段潜在空间特征进行解码得到目标舞蹈动画片段。本发明将根据用户给定的音乐、文本提示、表演者图像等先验条件直接生成风格化的舞蹈图像,使其具有更好的实用性和泛化性。

主权项:1.一种基于扩散模型的音乐条件化舞蹈动画生成方法,其特征在于,包括如下步骤:步骤S1:构建舞蹈动画生成模型包括预训练扩散模型、预训练模型Wav2CLIP、对比语言图像预训模型CLIP、预训练VAE模型和多模态控制网络;所述预训练VAE模型由一个图像编码器和一个图像解码器组成;所述多模态控制网络由多个零卷积层、一个特殊的全连接层、编码器部分和中间层部分组成;所述编码器部分由多条件编码器模块、第二个扩散模型编码器模块、第三个扩散模型编码器模块、第四个扩散模型编码器模块组成;所述对比语言图像预训模型CLIP由CLIP文本编码器和CLIP图像编码器构成;所述多条件编码器模块由条件归一化模块构成;步骤S2:获取数据集的舞蹈视频,并构建与舞蹈视频符合的文本提示;步骤S2.1:将数据集的舞蹈视频进行一定时长切分成固定时长的音乐片段和视频片段,同时将视频片段中第一帧、最后一帧分别作为表演者图像、源舞蹈动画片段;步骤S3:采用对比语言图像预训模型CLIP、预训练模型Wav2CLIP和预训练VAE模型对文本提示、音乐片段和表演者图像进行编码得到不同潜在特征;不同潜在特征包括文本提示的潜在特征、音频的潜在特征和表演者图像的潜在空间特征;步骤S4:将源舞蹈动画片段编码到潜在空间,得到源舞蹈动画片段潜在空间特征,并对源舞蹈动画片段潜在空间特征进行时间步长的随机加噪,通过文本提示的潜在特征、音频的潜在特征和表演者图像的潜在空间特征的控制对源舞蹈动画片段潜在空间特征添加的噪声进行预测,进一步得到去除预测噪声的目标舞蹈动画片段潜在空间特征;步骤S5:对去噪后的目标舞蹈动画片段潜在空间特征用预训练VAE模型的图像解码器进行解码得到目标舞蹈动画片段。

全文数据:

权利要求:

百度查询: 江西师范大学 一种基于扩散模型的音乐条件化舞蹈动画生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。