买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种机场运控视频检索的方法_电子科技大学_202311833902.9 

申请/专利权人:电子科技大学

申请日:2023-12-28

公开(公告)日:2024-04-02

公开(公告)号:CN117807271A

主分类号:G06F16/783

分类号:G06F16/783;G06V10/40;G06V10/774

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.19#实质审查的生效;2024.04.02#公开

摘要:本发明公开了一种机场运控视频检索的方法,属于机场场面运控管理及人工智能多模态领域。本发明包括:采集包含机场人体动作的视频数据并做文本描述与时序标注;对原始视频数据进行预处理生成数据集;构建基于I3D的骨干网络获取视频特征序列;构建基于自注意力的视频序列分析器;构建文本序列分析器对标注文本进行嵌入;取标注文本嵌入后特征与其对应的视频片段经过视频序列分析器得到的特征计算相似性;构建基于提示学习的文本处理方法,处理后送入文本序列分析器进行嵌入;构建基于互注意力的多模态融合模型,完成对视频流中文本描述片段的定位与检索。本发明通过上述技术方案,在减少模型计算量的前提下大幅提升了机场运控视频检索的准确度。

主权项:1.一种机场运控视频检索的方法,其特征在于,包括下列步骤:步骤1,采集包含机场人体动作的视频数据,并对视频数据中的每段人体动作标注动作起始时间、结束时间,并对其进行文字描述,得到原始视频数据集及文本数据集,并对原始视频数据集中的数据进行预处理和构建训练样本;步骤2:构建特征提取模块,对原始视频数据集中的数据进行特征提取,得到人体动作特征,并基于每段人体动作所对应的视频段的人体动作特征得到整段视频特征;步骤3:构建基于自注意力的视频序列分析器,分别对整段视频特征和有文字描述的特定视频片段特征进行分析;步骤4:构建基于Bert-base-uncased的文本序列分析器对标注文本进行嵌入;步骤5:取标注文本嵌入后的class_token特征与其对应的视频片段特征在步骤3中经过视频序列分析器得到的class_token特征计算对比损失;步骤6:构建基于提示学习的文本处理方式,为视频的文本描述添加提示信息,并将文本处理结果送入文本序列分析器进行嵌入,得到提示学习文本特征;步骤7:构建基于互注意力的多模态融合模型,将步骤3中得到的整段视频特征和步骤6中得到的提示学习文本特征送入多模态融合模型,完成对视频流中文本描述片段的定位与检索,并计算kl散度损失,最后通过降低对比损失及kl散度损失训练整个端到端模型;所述端到端模型包括特征提取模块、视频序列分析器、文本序列分析器和多模态融合模型。

全文数据:

权利要求:

百度查询: 电子科技大学 一种机场运控视频检索的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。