买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于多模态细粒度对齐网络的视频描述方法与系统_江西财经大学_202311668813.3 

申请/专利权人:江西财经大学

申请日:2023-12-07

公开(公告)日:2024-03-22

公开(公告)号:CN117372936B

主分类号:G06V20/40

分类号:G06V20/40;G06V10/44;G06V10/764;G06V10/82;G06N3/0455;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2024.01.26#实质审查的生效;2024.01.09#公开

摘要:本发明提出一种基于多模态细粒度对齐网络的视频描述方法与系统,该方法首先获取在视频中实体的时空细粒度标注和在视频中动作的时空细粒度标注,再获取时空特征、动作特征和文本特征,通过鼓励注意力机制将注意力集中在视频不同帧的不同空间细粒度区域,以促进实体的对齐,并动态地将动词与相关的主语和相应的上下文关联起来,以保留动作预测中的细粒度空间和时间细节,并且通过软对齐监督损失,可以使注意力机制学习在标注区域内分配更多的注意力权重,且高置信度的标注区域比低置信度标注区域的视觉权重更大。本发明通过显示地建立实体、动作与视频帧中的视觉线索的细粒度关联,以提高视频描述模型的准确性。

主权项:1.一种基于多模态细粒度对齐网络的视频描述方法,其特征在于,所述方法包括如下步骤:步骤1、通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注;步骤2、通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注;步骤3、根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注;步骤4、通过预训练的视觉编码器提取视频的时空特征和动作特征,通过预训练的文本编码器提取文本特征;步骤5、将文本特征分别与时空特征和动作特征进行跨模态注意力操作,得到对应的注意力权重矩阵,通过时空细粒度标注生成对应的注意力监督矩阵,以指导模型的注意力权重分配;步骤6、利用注意力监督矩阵作为监督信息,采用软对齐监督损失引导模型将注意力聚焦在时空特征和动作特征中的实体和动作区域,细粒度对齐视觉信息与文本信息,得到重聚焦后的时空特征和动作特征;步骤7、将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述;在所述步骤2中,通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注的具体方法包括如下步骤:采用目标跟踪器模型对已经检测出的实体在视频的相邻帧中进行跟踪,以在相邻视频帧中生成伪边界框标注;每个伪边界框标注的置信度为,其中,,伪边界框标注的生成过程存在如下关系式: ;其中,表示通过目标检测而检测出的文本描述中对应的实体位置,表示跟踪出的第f帧的对应的伪边界框标注,表示通过目标跟踪器模型进行跟踪检测操作;基于置信度的阈值过滤潜在的错误边界框,最终在视频中形成实体的时空细粒度标注;在所述步骤3中,根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注的具体方法包括如下步骤:针对视频帧中与动词相关的实体及其相应的边界框,生成覆盖这些框的最紧密的外接矩形,以外接矩形作为该动词的标注,记为外接矩形标注,外接矩形标注计算过程存在如下关系式: ;其中,表示并集操作,表示外界矩形操作,表示第f帧的第i个实体边界框标注,表示第f帧的第i+1个实体边界框标注,和为第f帧与动词相关的实体的边界框标注;通过聚合动词相关实体的置信度形成外接矩形标注的置信度得分,外接矩形标注的置信度得分计算过程存在如下关系式: ;其中,表示第f帧的第i个实体边界框标注的置信度,表示外接矩形标注,表示外接矩形标注的置信度得分,表示每帧中实体以及对应边界框的数量;视频中的动作和文本描述中的动词相对应,由外接矩形标注和其置信度得分组成该动作的时空细粒度标注;在所述步骤6中,软对齐监督损失存在如下关系式: ;其中,表示软对齐监督损失,表示取对数,表示第j个视觉向量,表示第j个视觉注意力权重,表示第j个动作向量,表示第j个动作注意力权重。

全文数据:

权利要求:

百度查询: 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。