申请/专利权人:之江实验室
申请日:2024-03-12
公开(公告)日:2024-04-12
公开(公告)号:CN117880444A
主分类号:H04N5/262
分类号:H04N5/262;G06V10/40;G06V20/40;G06V10/80;G06V10/82;G06N3/0442;G06N3/045;G06N3/0455;G06N3/08
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.30#实质审查的生效;2024.04.12#公开
摘要:本说明书公开了一种长短时特征引导的人体康复运动视频数据生成方法,可以通过视频生成模型中的图像参考网络,提取得到参考图像对应的图像参考特征,以及将第k‑1个分段视频样本输入到视频生成模型中的视频参考网络中,得到视频参考特征。通过生成的噪声,对第k个分段视频样本进行加噪,得到加噪后的分段视频样本,并将第k个分段姿态序列、加噪后的分段视频样本、视频参考特征以及图像参考特征,输入到视频生成模型中的稳定扩散网络中,通过稳定扩散网络预测对第k个分段视频样本加入的噪声,得到预测噪声;以最小化预测噪声与生成的噪声之间的差异为优化目标,对视频生成模型进行训练,从而提高了视频生成质量。
主权项:1.一种长短时特征引导的人体康复运动视频数据生成方法,其特征在于,包括:获取参考图像、姿态序列以及视频样本;将所述姿态序列与所述视频样本分别进行分段,得到各分段姿态序列和各分段视频样本,一个分段姿态序列与一个分段视频样本一一对应,相邻的分段视频样本之间存在重叠;将所述参考图像,分段姿态序列以及分段视频样本输入到待训练的视频生成模型中,以通过所述待训练的视频生成模型中的图像参考网络,提取得到所述参考图像对应的图像参考特征,以及将第k-1个分段视频样本输入到所述视频生成模型中的视频参考网络中,得到所述第k-1个分段视频样本对应的视频参考特征;通过生成的噪声,对第k个分段视频样本进行加噪,得到加噪后的分段视频样本,并将第k个分段姿态序列、所述加噪后的分段视频样本、所述视频参考特征以及所述图像参考特征,输入到所述视频生成模型中的稳定扩散网络中,通过所述稳定扩散网络预测对所述第k个分段视频样本加入的噪声,得到预测噪声;以最小化所述预测噪声与所述生成的噪声之间的差异为优化目标,对所述视频生成模型进行训练,训练后的视频生成模型用于通过用户给出的参考图像和姿态序列,生成人体康复运动视频。
全文数据:
权利要求:
百度查询: 之江实验室 一种长短时特征引导的人体康复运动视频数据生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。