【发明公布】基于文本提示词和图像驱动的内容生成方法、设备、介质_上海人工智能创新中心_202311759693.8

申请/专利权人：上海人工智能创新中心

申请日：2023-12-20

公开（公告）日：2024-04-19

公开（公告）号：CN117911584A

主分类号：G06T11/60

分类号：G06T11/60;G06V30/41;G06V30/19;G06V20/40;G06T5/70

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.07#实质审查的生效;2024.04.19#公开

摘要：本发明涉及一种基于文本提示词和图像驱动的内容生成方法、设备、介质，一方面，本发明对图像驱动任务构建了一个条件编码模块，该模块能够兼容现有的文本生成图像、文本生成视频模型，以条件帧和帧间一致性为输入，能更好编码和保留条件帧的细节；另一方面，本发明对训练数据集的扩充，除了条件帧、目标条件帧，该数据集还包含了条件帧和目标条件帧的帧间一致性，该发明能够有效提高生成视频的稳定性和可控性；最后，针对图像驱动模型的训练策略，将动作过快或静止的数据映射到特定的输入区间，通过在推理时回避该输入区间以获得高质量的生成结果，同时，训练结束后，可以通过调整输入的帧间一致性数值来控制生成视频中动效的剧烈程度。

主权项：1.一种基于文本提示词和图像驱动的内容生成方法，其特征在于，基于给定的文本提示词和给定的图像，利用预训练好的图像驱动模型生成视频，所述图像驱动模型的训练过程包括如下步骤：获取包括输入文本、给定条件帧、目标视频帧序列和帧间一致性编码的样本，其中，基于所述给定条件帧和所述目标视频帧序列计算所述帧间一致性编码；对所述给定条件帧进行编码，得到图像编码，基于所述图像编码和所述帧间一致性编码，通过条件编码得到条件帧特征；初始化噪声帧，通过特征提取得到噪声特征；基于所述条件帧特征、所述噪声特征和所述输入文本，得到输出编码并进行去噪，作为新的噪声帧，完成本轮迭代，重复本步骤进行多次迭代；基于多次迭代后的去噪后的输出编码，得到输出视频帧，基于所述目标视频帧序列和所述输出视频帧更新所述图像驱动模型的参数，完成针对所述样本的训练。

全文数据：

权利要求：

百度查询：上海人工智能创新中心基于文本提示词和图像驱动的内容生成方法、设备、介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种通过线性差值检测三维场景深度的方法及系统_福建天晴数码有限公司_202211456043.1

下一篇：硬盘架装置_环达电脑(上海)有限公司_202211453396.6

相关技术

一种通过线性差值检测三维场景深度的方法及系统_福建天晴数码有限公司_202211456043.1

硬盘架装置_环达电脑(上海)有限公司_202211453396.6

应用程序的测试方法、装置、电子设备及存储介质_腾讯科技(深圳)有限公司_202211444321.1

一种利用低品位热源的矿井水浓缩淡化产盐的系统及方法_国能神东煤炭集团有限责任公司_202211456879.1

一种数字易货交易系统及数字易货交易方法_深圳励鼎科技有限公司_202310558886.0

深度覆盖优化方法、装置、设备及计算机可读存储介质_中国移动通信集团陕西有限公司_202211457618.1

薄膜晶体管基板、包括该基板的显示装置及其制造方法_乐金显示有限公司_202311299470.8

下沉式海上制氢装置_中国石油管道局工程有限公司_202211444745.8

数据识别方法及装置_华为技术有限公司_202211456054.X

用于清洁容器的方法和装置_ASMIP私人控股有限公司_202311524907.3

环氧氯丙烷和环氧树脂废水处理方法及其应用_中化环境科技工程有限公司_202211456317.7

干细胞成牙本质向分化方法_中国科学院深圳先进技术研究院_202211452289.1

龙图腾网&IPTOP

【发明公布】基于文本提示词和图像驱动的内容生成方法、设备、介质_上海人工智能创新中心_202311759693.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务