买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于复合图像语义的图像描述方法_北京航空航天大学_202110376986.2 

申请/专利权人:北京航空航天大学

申请日:2021-04-08

公开(公告)日:2024-04-16

公开(公告)号:CN113516152B

主分类号:G06V10/764

分类号:G06V10/764;G06V10/80;G06V10/774;G06V10/82;G06N3/0464;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.11.05#实质审查的生效;2021.10.19#公开

摘要:本发明涉及一种基于复合图像语义的图像描述方法,包括:在图像编码部分,获取图像中的多种语义信息,包括图像经过卷积后的语义信息、边缘信息,还有经过目标识别网络后得到的标签与尺寸信息;设计融合注意力机制,将图像边缘特征与深层语义特征进行融合,结合前一时刻单词有效进行图像区域的重点转移,使得图像的细节信息保留完整;其次结合图像中目标框的标签与尺寸所形成的语义信息再次融合,在语句生成时有重点地突出文本语义信息。本方法为网络提供了更多语义信息,既完善了图像的细节信息,还更加准确地定位了目标体的分类,避免了语义信息丢失,两次注意力的转移有效地融合图像与文本之间的信息,完成不同模态的转换,从而高效准确地完成图像描述任务。

主权项:1.一种基于复合图像语义的图像描述方法,其特征在于,具体步骤如下:步骤1:利用ResNet101网络提取图像特征信息v;步骤2:利用来自DeepLabv3的空洞空间卷积池化金字塔ASPP结构,以不同采样率的空洞卷积并行采样得到图像特征q;步骤3:通过在MSCOCO数据集上预训练好的目标识别网络YOLOv3,在编码阶段对图像并行地提取出目标框的标签lcls与尺寸信息lbox;步骤4:设计融合视觉与文本的注意力机制,将图像的中间层、高层特征信息与语义信息联系起来;所述步骤4具体实现如下:4.1首先定义注意力权重输入图像特征v、经过ASPP结构获得的图像特征q以及上一时刻LSTM输出ht-1,为不同位置的特征信息分配权重,公式如下:at=gvi,qi,ht-1, 其中vi,qi代表第i通道的图像特征,ht-1代表上一时刻LSTM的输出,at代表当前时刻对不同通道图像区域的关注程度,αt为注意力权重;4.2结合图像特征v,重新进行点积运算得到上下文向量,这样得到的新特征作为下一次长短期记忆网络单元结构的输入;分配权重后的图像特征vatt既包含了当前步词语的文本信息,还对需要着重关注的图像区域进行了突出; 其中m代表图像特征的通道数;4.3将vatt与根据标签所得到的语义信息s进行整合,采用的公式如下: 其中的Uv,Us为全连接层可学习的参数,e为数学中常数2.71828。

全文数据:

权利要求:

百度查询: 北京航空航天大学 一种基于复合图像语义的图像描述方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。