买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于跨模态哈希学习的视频解析方法_山东省人工智能研究院;山东大学;河钢数字技术股份有限公司;河钢集团有限公司_202110447506.7 

申请/专利权人:山东省人工智能研究院;山东大学;河钢数字技术股份有限公司;河钢集团有限公司

申请日:2021-04-25

公开(公告)日:2021-07-13

公开(公告)号:CN113111836A

主分类号:G06K9/00(20060101)

分类号:G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101)

优先权:

专利状态码:有效-授权

法律状态:2022.08.19#授权;2021.07.30#实质审查的生效;2021.07.13#公开

摘要:一种基于跨模态哈希学习的视频解析方法,实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段‑查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位。

主权项:1.一种基于跨模态哈希学习的视频解析方法,其特征在于,包括:a对第k条视频数据Vk进行单元分割,k∈{1,...,K},K为视频数据总数,对分割后的视频数据Vk输入C3D网络模型处理,将处理结果进行池化操作得到基于视频单元的特征表征Vk0,为第r个视频单元的特征表征,R为视频单元的总个数;b通过公式基于双向时序卷积网络对Vk0进行上下文信息感知的特征增强,得到第i次双向卷积处理后的视频表征Vki,式中ε为卷积核大小,ρ为稀疏率,Θ为双向时序卷积操作,为经过第i次双向卷积处理的第r个视频单元的特征表征;c完成三次双向时序卷积,得到视频表征Vk3,将视频表征Vk3依次输入多尺度卷积网络和多层感知机网络模型处理,得到视频片段表征集合Ck,Ck={ck,1,ck,2,…,ck,i,…,...,ck,n},ck,i为第i个视频片段表征,i∈{1,...,n},n为视频片段总个数;d对第k条视频数据Vk的全体查询语句构成的集合Qk通过基于长短时记忆网络与多层感知机网络的语义理解,生成相应的查询语句表征集合e基于交并比率IoU构建跨模态相似矩阵Mk,将视频片段表征集合Ck和查询语句表征集合分别输入全连接神经网络后基于跨模态相似矩阵进行跨模态特征语义对齐,完成跨模态哈希网络模型的建立,通过损失函数Γ训练跨模态哈希网络模型;f将测试集输入训练后的跨模态哈希网络模型,将测试集中第r条视频数据Vr和对第r条视频数据Vr的全体查询语句构成的集合Qr向汉明空间进行特征映射,得到视频数据Vr的哈希特征集合以及集合Qr的哈希特征集合bci为第i个视频数据的哈希特征,i∈{1,...,n},bqj为第j个查询语句的哈希特征,j∈{1,...,m},m为集合Qr中查询语句的总个数;g通过公式计算得到汉明距离T为转置,L为哈希码长度,⊙点乘计算,通过汉明距离度量哈希特征集合和得到语义相似性结果。

全文数据:

权利要求:

百度查询: 山东省人工智能研究院;山东大学;河钢数字技术股份有限公司;河钢集团有限公司 基于跨模态哈希学习的视频解析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。