首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种统一卷积与自注意力的轻量视频分类方法_上海人工智能创新中心_202210010323.3 

申请/专利权人:上海人工智能创新中心

申请日:2022-01-05

公开(公告)日:2024-04-26

公开(公告)号:CN114973049B

主分类号:G06V10/764

分类号:G06V10/764;G06V20/40;G06V10/82;G06V10/74;G06N3/0464;G06N3/0455

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2022.09.16#实质审查的生效;2022.08.30#公开

摘要:本发明公开了一种统一卷积与自注意力的轻量视频分类方法。该方法包括:获取待识别的目标视频图像;将目标视频图像视为一系列令牌利用预训练的变换器模型框架提取特征,该变换器模型框架设置为多层,每层包含多个统一变换器模块,各层的输出经由特征聚合降低分辨率,其中每个统一变换器模块包含动态位置编码器、多头关系聚合器和前馈神经网络,动态位置编码器将目标视频图像的三维位置信息动态集成到所有的令牌中,多头关系聚合器用于将每个令牌与其上下文令牌进行聚合,前馈网络用于对每个令牌进行单独信息增强;基于所提取的特征对目标视频图像进行分类。本发明提供的模型计算量更小,并取得了更高的分类准确性。

主权项:1.一种统一卷积与自注意力的轻量视频分类方法,包括以下步骤:获取待识别的目标视频图像;将目标视频图像视为一系列令牌利用预训练的变换器模型框架提取视频特征,该变换器模型框架设置为多层,每层包含多个统一变换器模块,各层的输出经由特征聚合降低分辨率,其中每个统一变换器模块包含动态位置编码器、多头关系聚合器和前馈神经网络,所述动态位置编码器将目标视频图像的三维位置信息动态集成到所有的令牌中,以利用令牌的时空顺序进行视频建模;所述多头关系聚合器用于将每个令牌与其上下文令牌进行聚合;所述前馈神经网络用于对每个令牌进行单独信息增强;基于所提取的视频特征对目标视频图像进行分类;其中,对于各统一变换器模块,将其包含的多头关系聚合器划分为局部关系聚合器和全局关系聚合器,其中所述局部关系聚合器用于学习局部表示,所述全局关系聚合器用于学习全局表示;其中,将所述多个统一变换器模块依据在整个模型框架中的位置划分为浅层部分和深层部分,其中,位于浅层部分的多头关系聚合器设置为局部关系聚合器,对于已知的锚定令牌,通过在设定的三维邻域中学习该锚定令牌与其他令牌之间的局部时空亲和度来学习局部关系,所述局部时空亲和度的值依赖于令牌之间的相对三维位置信息;位于深层部分的多头关系聚合器设置为全局关系聚合器,通过在全局比较所有令牌的内容相似性来设计令牌相似度,并共同编码所有令牌的时空关系。

全文数据:

权利要求:

百度查询: 上海人工智能创新中心 一种统一卷积与自注意力的轻量视频分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术