买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于动态卷积和捷径的视频检索方法、设备和存储介质_北方工业大学_202210223064.2 

申请/专利权人:北方工业大学

申请日:2022-03-09

公开(公告)日:2024-04-12

公开(公告)号:CN114579803B

主分类号:G06F16/78

分类号:G06F16/78;G06F16/783;G06V10/74;G06V10/82;G06N3/0464;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2022.06.21#实质审查的生效;2022.06.03#公开

摘要:本文提出了一种视频检索框架,其包括视频编码器,视频编码器采用MMT对输入视频中提取的多个模态进行处理,所述MMT包括:与多个模态对应的多个输入端,用于接收与所述多个模态相对应的多个视频嵌入,用于输出输入视频的视频特征表示的多个输出端,以及在多个输入端与多个输出端之间的、以转换器编码器为节点的全连接网络,其中,转换器编码器包括多头注意力模块,其接收查询Q、键K和值V作为输入,并且进一步包括:子注意力子模块,其接收查询Q、键K和值V,并将查询和一组键‑值对映射到输出;基于跨度的动态卷积子模块,其接收查询Q、键K和值V,对键K应用卷积以得到卷积键Ks,并将查询和一组卷积键‑值对映射到输出;以及联接器,其用于连接子注意力子模块的输出和基于跨度的动态卷积子模块的输出。

主权项:1.一种用于检索视频的方法,包括:使用视频编码器来获得输入视频的视频特征表示,所述视频编码器采用多模态转换器MMT对所述输入视频中提取的多个模态进行处理,所述MMT包括:与所述多个模态对应的多个输入端,用于接收与所述多个模态相对应的多个视频嵌入E1-EN,用于输出所述输入视频的视频特征表示T1-TN的多个输出端,以及在所述多个输入端与所述多个输出端之间的、以转换器编码器Trm为节点的全连接网络;使用文本编码器来获得输入文本的文本特征表示;计算所述视频特征表示与所述文本特征表示之间的相似度,其中,所述转换器编码器Trm包括多头注意力模块,所述多头注意力模块接收查询Q、键K和值V作为输入,并且所述多头注意力模块进一步包括:子注意力子模块,其接收所述查询Q、所述键K和所述值V,并将所述查询和一组键-值对映射到输出;基于跨度的动态卷积子模块,其接收所述查询Q、所述键K和所述值V,对所述键K应用卷积以得到卷积键Ks,并将查询和一组卷积键-值对映射到输出;以及联接器,其用于连接所述子注意力子模块的输出和所述基于跨度的动态卷积子模块的输出,其中,所述转换器编码器Trm包括:所述多头注意力模块,其接收所述转换器编码器Trm的输入;第一加法器,其将所述多头注意力模块的输出、所述转换器编码器Trm的输入以及N个增强捷径相加;第一层标准化模块,用于对所述第一加法器的输出进行层标准化;前向反馈模块,其接收所述第一层标准化模块的输出,执行前向反馈;第二加法器,其将所述前向反馈模块的输出、所述第一层标准化模块的输入以及N个增强捷径相加;以及第二层标准化模块,用于对所述第二加法器的输出进行层标准化。

全文数据:

权利要求:

百度查询: 北方工业大学 基于动态卷积和捷径的视频检索方法、设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。