买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于局部特征增强和模态交互的视频检索方法及系统_江南大学_202410093675.9 

申请/专利权人:江南大学

申请日:2024-01-23

公开(公告)日:2024-03-22

公开(公告)号:CN117609553B

主分类号:G06F16/783

分类号:G06F16/783;G06F40/284;G06F40/289;G06N3/0442;G06N3/045;G06V10/44;G06V10/80;G06V10/82;G06V20/40;G06F16/732

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2024.03.15#实质审查的生效;2024.02.27#公开

摘要:本发明提供一种基于局部特征增强和模态交互的视频检索方法及系统,涉及跨模态视频检索技术领域,该方法包括根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;获取时序化帧图像特征并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强;将文本分词特征和文本关键词特征进行特征融合,实现文本局部特征增强;将时序化帧图像特征和文本全局特征进行跨模态的交互,生成文本条件的视频特征;采用多粒度匹配的策略进行层次化的视频文本匹配。本发明通过局部特征增强和模态交互,可以提高视频检索性能。

主权项:1.一种基于局部特征增强和模态交互的视频检索方法,其特征在于,包括:S1:根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;S2:根据帧图像特征和时序编码器,对帧图像特征进行时序建模,得到时序化帧图像特征,并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强,获得增强后的视频局部特征;S3:根据文本分词特征和文本关键词特征,进行特征融合,实现文本局部特征增强,获得增强后的文本局部特征;S4:根据时序化帧图像特征和文本全局特征,进行跨模态的交互,生成文本条件的视频特征;S5:根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配;其中所述根据时序化帧图像特征和文本全局特征,进行跨模态的交互,生成文本条件的视频特征,具体包括:使用交叉注意力机制通过文本全局特征的引导对时序化帧图像特征进行条件池化:v=CrossAttenf·W′K,f·W′V,t·W′Q;其中,f和t分别为时序化帧图像特征和文本全局特征;W′K、W′V以及W′Q分别为对应的投影矩阵;CrossAtten为交叉注意力机制;v为文本条件池化后的视频特征;所述根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配,具体包括:将增强后的视频局部特征和增强后的文本局部特征进行细粒度相似度计算;将文本条件的视频特征与文本全局特征进行粗粒度的相似度计算;将两个粒度的相似度相加得出最终的视频文本相似度。

全文数据:

权利要求:

百度查询: 江南大学 基于局部特征增强和模态交互的视频检索方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。