【发明授权】一种基于动态时空图的视频理解方法_中国科学技术大学;深圳市腾讯计算机系统有限公司_202410090714.X

申请/专利权人：中国科学技术大学;深圳市腾讯计算机系统有限公司

申请日：2024-01-23

公开（公告）日：2024-04-19

公开（公告）号：CN117612072B

主分类号：G06V20/40

分类号：G06V20/40;G06N3/048;G06N3/0499;G06N3/08;G06V10/44;G06V10/764;G06V10/80;G06V10/82

优先权：

专利状态码：有效-授权

法律状态：2024.04.19#授权;2024.03.15#实质审查的生效;2024.02.27#公开

摘要：本发明公开了一种基于动态时空图的视频理解方法，将视频数据输送到已训练好的网络模型中，以输出视频理解结果；所述网络模型为层依次连接的特征提取层构成的主干网络，在主干网络中，上一层特征提取层的输出作为下一层特征提取层的输入，每层特征提取层包括依次连接的多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层；该视频理解方法通过动态时空图对视频中复杂动态和结构信息的准确捕捉，提高对整体时空信息的全局理解和综合捕捉，以及利用基于适配器的预训练模型迁移，提升视频理解的准确性和效率。

主权项：1.一种基于动态时空图的视频理解方法，其特征在于，将视频数据输送到已训练好的网络模型中，以输出视频理解结果；所述网络模型为层依次连接的特征提取层构成的主干网络，在主干网络中，上一层特征提取层的输出作为下一层特征提取层的输入，以CLIP模型作为网络模型的主体结构，原始CLIP模型的每层特征提取层包括多头注意力层和前馈网络层，在原始CLIP模型的每层特征提取层上插入若干模块，具体为在多头注意力层和前馈网络层之间插入空域融合模块、第一适配器、时域交互模块、第二适配器；多头注意力层、空域融合模块、第一适配器、时域交互模块、第二适配器和前馈网络层依次连接；所述网络模型的训练过程如下：S1：构建训练集，提取训练集中视频数据的每帧图像，将每帧图像转化为多个令牌，基于每帧图像的多个令牌建立令牌间的空域关系，将相邻帧图像中的令牌连接以建立令牌间的时空关系，基于令牌间的空域关系和时空关系构建每帧图像的动态时空图，将动态时空图输入到主干网络；S2：基于空域融合模块计算每帧图像中令牌间的相似度，按照相似度降序排列，选择每帧图像的前对相似的令牌进行融合，得到空域融合后的令牌集合，并将空域融合后的令牌集合送入可训练的第一适配器中进行特征交互；S3：基于时域交互模块中的自注意力机制计算空域融合后的令牌集合中每个令牌与其时空邻居的注意力权重，对每个令牌自身特征和其时空邻居特征进行加权得到每个令牌的新时空特征，并将每个令牌的新时空特征输入到可训练的第二适配器中进行特征交互；S4：将主干网络输出的新时空特征输入到分类器中以输出类别，在CLIP模型中嵌入第一适配器和第二适配器，仅训练第一适配器和第二适配器的参数，每层中训练完成的第一适配器和第二适配器实现网络模型从图像任务到视频理解任务的迁移；在步骤S2和S3中，适配器结合残差结构简化优化过程如下：其中，是适配后网络模型的特征表示，是输入适配器前的特征，是适配器学到的调整参数，是适配器的特征变换函数，该适配器分别对应第一适配器或第二适配器。

全文数据：

权利要求：

百度查询：中国科学技术大学;深圳市腾讯计算机系统有限公司一种基于动态时空图的视频理解方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种弱监督云检测方法_安徽大学_202310764234.2

下一篇：一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

相关技术

一种弱监督云检测方法_安徽大学_202310764234.2

一种结构紧凑的测斜仪骨架_青岛智腾科技有限公司_201910663221.X

一种产丙酸的工程益生菌的构建与应用_天津大学_202310196065.7

燃料电池以及燃料电池的制造方法_丰田自动车株式会社_202110209899.8

一种处理DMS红外光反射导致亮斑的系统_钧捷智能(深圳)有限公司_202310101483.3

一种直径与中继协作的信号空间分集传输方法_山东交通学院_202110011021.3

一种风机通风量检测方法及装置_北京农业信息技术研究中心_202110665511.5

一种即时检验抗凝药物监测系统_北京倍肯恒业科技发展股份有限公司_202310581047.0

一种泥水盾构泥水循环系统管路堵塞智能预警方法_郑州轻工业大学_202310490445.1

一种农产品供应链信息管理系统_河南建设产业投资有限公司_202311393351.9

一种外导体压接装置_江苏博之旺自动化设备有限公司_202111235070.1

用于运行机动车的方法、调节装置和机动车_奥迪股份公司_202110617439.9

龙图腾网&IPTOP

【发明授权】一种基于动态时空图的视频理解方法_中国科学技术大学;深圳市腾讯计算机系统有限公司_202410090714.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务