申请/专利权人:之江实验室科技控股有限公司
申请日:2024-01-05
公开(公告)日:2024-04-09
公开(公告)号:CN117523050B
主分类号:G06T13/40
分类号:G06T13/40;G06T13/20;G06V20/62;G06V10/86;G06V10/82;G06N3/0464;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2024.04.09#授权;2024.02.27#实质审查的生效;2024.02.06#公开
摘要:本申请涉及视频处理技术领域,其具体地公开了一种AI视频处理方法与装置,其采用计算机视觉技术,对多张漫画图像进行图像语义特征提取,同时,采用自然语言处理技术,对漫画中的对话和文本描述进行文本识别,提取漫画人物的语言特征,并将两种特征进行融合,基于漫画人物的动作声音情感关联特征来分别生成相应的音频和视频,再将音频数据和视频视频结合起来以得到生成的动漫视频。这样,结合计算机视觉和自然语言处理的技术,能够更好地理解漫画人物的语言特征和漫画图像的情感表达,以生成高质量的视频。
主权项:1.一种AI视频处理方法,其特征在于,包括:获取多张漫画图像;从所述多张漫画图像中提取出动漫声音动作情感关联特征向量;基于所述动漫声音动作情感关联特征向量,生成动漫视频;其中,从所述多张漫画图像中提取出动漫声音动作情感关联特征向量,包括:对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量;对所述多张漫画图像中的文本信息进行文本语义理解以提取漫画文本语义特征向量;融合所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量以得到动漫声音动作情感关联特征向量;其中,融合所述漫画全局上下文语义特征向量和所述漫画文本语义特征向量以得到动漫声音动作情感关联特征向量,包括:基于所述漫画全局上下文语义特征向量,对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到优化漫画文本语义特征向量;融合所述漫画全局上下文语义特征向量和所述优化漫画文本语义特征向量以得到所述动漫声音动作情感关联特征向量;其中,基于所述漫画全局上下文语义特征向量,对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到优化漫画文本语义特征向量,包括:以如下优化公式对所述漫画文本语义特征向量进行参数化几何关系过渡先验特征的非刚性一致化以得到所述优化漫画文本语义特征向量;其中,所述优化公式为: 其中,v1表示所述漫画全局上下文语义特征向量,vj表示所述漫画全局上下文语义特征向量的第j个位置的特征值,vi表示所述漫画文本语义特征向量的第i个位置的特征值,log表示以2为底的对数函数值,λ表示预定超参数,vi′表示所述优化漫画文本语义特征向量的第i个位置的特征值;其中,对所述多张漫画图像进行图像语义理解以提取漫画全局上下文语义特征向量,包括:将所述多张漫画图像分别通过包含嵌入层的ViT模型以得到多个漫画语义特征向量;将所述多个漫画语义特征向量按照漫画顺序排列为漫画语义关联特征矩阵;将所述漫画语义关联特征矩阵通过基于卷积神经网络模型的漫画上下文关联特征提取器以得到所述漫画全局上下文语义特征向量。
全文数据:
权利要求:
百度查询: 之江实验室科技控股有限公司 一种AI视频处理方法与装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。