买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多模态异质特征融合的视频密集事件描述方法_中远海运科技股份有限公司;上海船舶运输科学研究所有限公司;大连海事大学_202111159640.3 

申请/专利权人:中远海运科技股份有限公司;上海船舶运输科学研究所有限公司;大连海事大学

申请日:2021-09-30

公开(公告)日:2024-04-16

公开(公告)号:CN114359768B

主分类号:G06V20/40

分类号:G06V20/40;G06V10/762;G06V10/774;G06V10/82;G06V10/80;G06N3/0464

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.05.13#著录事项变更;2022.05.03#实质审查的生效;2022.04.15#公开

摘要:本发明涉及计算机视觉领域,具体涉及一种基于多模态异质特征融合的视频事件描述方法。本发明利用I3D卷积网络剪辑视频并提取动态视觉特征,VGGish模型提取音频韵律特征;将场景对象信息进行语义化表征,生成场景图谱,得到实体编码,属性编码和关系编码,通过图卷积对特征向量进行图嵌入;将提取的三个特征进行三重多模态循环融合;自适应多模态数据平衡,使动态视觉、音频韵律特征相互契合,保证事件提取合理;描述重构解码器,利用描述重构算法对视频事件进行检测,并根据预训练语言字典生成视频场景事件的描述。有效解决了视频描述方法中频繁生成共现描述等无意义描述的问题,并有效利用多模态信息挖掘出场景事件的关系。

主权项:1.一种基于多模态异质特征融合的视频密集事件描述方法,其特征在于,包括以下步骤:特征提取,利用I3D卷积网络选取开放域中长视频进行剪辑得到对应的视频帧,并对所述视频帧中的动态视觉特征Fm进行提取,获取动态视觉特征向量;利用VGGish模型来提取所述视频帧中的音频韵律特征向量;场景图特征嵌入,将视频帧中的场景对象信息进行语义化表征,生成场景图谱,得到实体编码,属性编码和关系编码,通过图卷积对所述实体编码、属性编码、关系编码中对应的特征向量进行图嵌入,得到场景图特征嵌入向量;三重多模态循环融合,将场景图特征嵌入向量、所述动态视觉特征向量、所述音频韵律特征向量作为输入,并将其进行三重多模态循环融合,再将输出的向量使用规范化函数沿通道做归一化,并且利用Dropout进行正则化后输入到解码器中,并为重构解码器做准备;描述重构解码器,包括预训练的语言字典解码器以及描述重构算法,通过描述重构算法对视频密集事件进行检测;并利用预训练的语言字典解码器来解码生成视频场景事件的描述;所述预训练的语言字典解码器是指利用预训练的语言字典来对视频场景事件的描述进行解码的模块。

全文数据:

权利要求:

百度查询: 中远海运科技股份有限公司;上海船舶运输科学研究所有限公司;大连海事大学 一种基于多模态异质特征融合的视频密集事件描述方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。