买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于动态时空图的视频理解方法_中国科学技术大学;深圳市腾讯计算机系统有限公司_202410090714.X 

申请/专利权人:中国科学技术大学;深圳市腾讯计算机系统有限公司

申请日:2024-01-23

公开(公告)日:2024-04-19

公开(公告)号:CN117612072B

主分类号:G06V20/40

分类号:G06V20/40;G06N3/048;G06N3/0499;G06N3/08;G06V10/44;G06V10/764;G06V10/80;G06V10/82

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2024.03.15#实质审查的生效;2024.02.27#公开

摘要:本发明公开了一种基于动态时空图的视频理解方法,将视频数据输送到已训练好的网络模型中,以输出视频理解结果;所述网络模型为层依次连接的特征提取层构成的主干网络,在主干网络中,上一层特征提取层的输出作为下一层特征提取层的输入,每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层;该视频理解方法通过动态时空图对视频中复杂动态和结构信息的准确捕捉,提高对整体时空信息的全局理解和综合捕捉,以及利用基于适配器的预训练模型迁移,提升视频理解的准确性和效率。

主权项:1.一种基于动态时空图的视频理解方法,其特征在于,将视频数据输送到已训练好的网络模型中,以输出视频理解结果;所述网络模型为层依次连接的特征提取层构成的主干网络,在主干网络中,上一层特征提取层的输出作为下一层特征提取层的输入,以CLIP模型作为网络模型的主体结构,原始CLIP模型的每层特征提取层包括多头注意力层和前馈网络层,在原始CLIP模型的每层特征提取层上插入若干模块,具体为在多头注意力层和前馈网络层之间插入空域融合模块、第一适配器、时域交互模块、第二适配器;多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层依次连接;所述网络模型的训练过程如下:S1:构建训练集,提取训练集中视频数据的每帧图像,将每帧图像转化为多个令牌,基于每帧图像的多个令牌建立令牌间的空域关系,将相邻帧图像中的令牌连接以建立令牌间的时空关系,基于令牌间的空域关系和时空关系构建每帧图像的动态时空图,将动态时空图输入到主干网络;S2:基于空域融合模块计算每帧图像中令牌间的相似度,按照相似度降序排列,选择每帧图像的前对相似的令牌进行融合,得到空域融合后的令牌集合,并将空域融合后的令牌集合送入可训练的第一适配器中进行特征交互;S3:基于时域交互模块中的自注意力机制计算空域融合后的令牌集合中每个令牌与其时空邻居的注意力权重,对每个令牌自身特征和其时空邻居特征进行加权得到每个令牌的新时空特征,并将每个令牌的新时空特征输入到可训练的第二适配器中进行特征交互;S4:将主干网络输出的新时空特征输入到分类器中以输出类别,在CLIP模型中嵌入第一适配器和第二适配器,仅训练第一适配器和第二适配器的参数,每层中训练完成的第一适配器和第二适配器实现网络模型从图像任务到视频理解任务的迁移;在步骤S2和S3中,适配器结合残差结构简化优化过程如下: 其中,是适配后网络模型的特征表示,是输入适配器前的特征,是适配器学到的调整参数,是适配器的特征变换函数,该适配器分别对应第一适配器或第二适配器。

全文数据:

权利要求:

百度查询: 中国科学技术大学;深圳市腾讯计算机系统有限公司 一种基于动态时空图的视频理解方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。