买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于全局时空的多模态视频摘要生成模型_华东师范大学_202410086042.5 

申请/专利权人:华东师范大学

申请日:2024-01-22

公开(公告)日:2024-04-12

公开(公告)号:CN117876936A

主分类号:G06V20/40

分类号:G06V20/40;H04N21/8549;G06V10/62;G06F40/30;G06F18/25;G06N3/0895;G06N3/0499;G06N3/045;G06N3/084

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于全局时空的多模态视频摘要生成模型,涉及在互联网中视频摘要的生成工作。本发明包括输入预处理模块、全局时空特征抽取模块、视频特征嵌入模块、预训练大型语言模型模块、多模态融合模块、训练模型及预测模块;其中多模态融合模块属于预训练大型语言模型模块中的一部分。本发明引入视觉特征来更好的整合文本和视觉模态信息,同时本发明能够关注到视频中的时间信息,以此来指导模型的文本摘要生成。本发明能够生成高质量的视频摘要内容,从而缓解目前互联网信息爆炸问题。

主权项:1.一种基于全局时空的多模态视频摘要生成模型,其特征在于,该模型包括输入预处理模块、全局时空特征抽取模块、视频特征嵌入模块、预训练大语言模型模块、多模态融合模块、训练模块及预测模块,其中:所述输入预处理模块,用于接收原始视频及其转录文本或文本字幕数据,并对其进行预处理生成原始视频帧嵌入及其文本嵌入;将生成的视频帧嵌入与文本嵌入分别传递至全局时空特征抽取模块和预训练大语言模块中;其预处理包括对视频数据进行抽帧、翻转和灰度转换;对文本数据进行独热编码;所述全局时空特征抽取模块,用于引入全局时空信息,将接收到的视频帧嵌入进行增强,并将增强的全局时空视频帧嵌入输入至视频特征嵌入模块中;所述全局时空信息是指视频中涵盖了整个时间序列和空间范围的信息;包括视频中的每一帧图像以及在时间轴上的顺序;此模块是在大规模数据集上进行训练的神经网络模型即预训练多模态对比学习模型CILP,使用CLIP模型用于理解文本和图像之间的关系,准确地提取视频中的内容、情感及动作信息;所述视频特征嵌入模块,对接收到的全局时空视频帧嵌入实现视频特征的增强,该模块由多头注意力以及前馈神经网络构成;其对全局时空视频帧嵌入进行学习并将帧嵌入转化为视频嵌入;所述预训练大语言模型模块,使用BART模型,在大规模文本数据上进行预训练,以学习语言表示;并添加了多模态融合模块,使BART模型支持不同模态的输入,将增强的文本嵌入及视频嵌入在多模态融合模块中进行融合,对融合后的多模态嵌入进行学习并生成训练摘要文本;其中,所述多模态融合模块,用于将来自不同模态即文本、图像、视频的特征融合在一起,形成综合的表示;所述训练模块,对生成的训练摘要文本与标签文本进行评估,其中标签文本为视频创作者对本视频的摘要描述,通过其与模型生成的摘要文本进行对比评估并进行损失计算、进行反向传播,并进行参数更新,得到所述的多模态视频摘要生成模型;训练模块包括数据清洗单元、训练单元和评估单元,数据清洗单元对不同模态数据进行清洗,训练单元将清洗后的数据用于生成模型,评估单元通过多个指标对生成的模型进行评估;所述预测模块,使用训练后的多模态视频摘要生成模型进行新数据的预测及推理;预测模块包括数据清洗单元和预测单元,数据清洗单元用于对视频数据进行抽帧处理;预测单元用于对新输入数据进行预测,预测单元利用训练好的所述生成模型输出对应的视频文本摘要结果。

全文数据:

权利要求:

百度查询: 华东师范大学 一种基于全局时空的多模态视频摘要生成模型

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。