【发明授权】一种基于复合图像语义的图像描述方法_北京航空航天大学_202110376986.2

导航：龙图腾网> 最新专利技术> 一种基于复合图像语义的图像描述方法_北京航空航天大学_202110376986.2

申请/专利权人：北京航空航天大学

申请日：2021-04-08

公开（公告）日：2024-04-16

公开（公告）号：CN113516152B

主分类号：G06V10/764

分类号：G06V10/764;G06V10/80;G06V10/774;G06V10/82;G06N3/0464;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.04.16#授权;2021.11.05#实质审查的生效;2021.10.19#公开

摘要：本发明涉及一种基于复合图像语义的图像描述方法，包括：在图像编码部分，获取图像中的多种语义信息，包括图像经过卷积后的语义信息、边缘信息，还有经过目标识别网络后得到的标签与尺寸信息；设计融合注意力机制，将图像边缘特征与深层语义特征进行融合，结合前一时刻单词有效进行图像区域的重点转移，使得图像的细节信息保留完整；其次结合图像中目标框的标签与尺寸所形成的语义信息再次融合，在语句生成时有重点地突出文本语义信息。本方法为网络提供了更多语义信息，既完善了图像的细节信息，还更加准确地定位了目标体的分类，避免了语义信息丢失，两次注意力的转移有效地融合图像与文本之间的信息，完成不同模态的转换，从而高效准确地完成图像描述任务。

主权项：1.一种基于复合图像语义的图像描述方法，其特征在于，具体步骤如下：步骤1：利用ResNet101网络提取图像特征信息v；步骤2：利用来自DeepLabv3的空洞空间卷积池化金字塔ASPP结构，以不同采样率的空洞卷积并行采样得到图像特征q；步骤3：通过在MSCOCO数据集上预训练好的目标识别网络YOLOv3，在编码阶段对图像并行地提取出目标框的标签lcls与尺寸信息lbox；步骤4：设计融合视觉与文本的注意力机制，将图像的中间层、高层特征信息与语义信息联系起来；所述步骤4具体实现如下：4.1首先定义注意力权重输入图像特征v、经过ASPP结构获得的图像特征q以及上一时刻LSTM输出ht-1，为不同位置的特征信息分配权重，公式如下：at＝gvi,qi,ht-1, 其中vi,qi代表第i通道的图像特征，ht-1代表上一时刻LSTM的输出，at代表当前时刻对不同通道图像区域的关注程度，αt为注意力权重；4.2结合图像特征v，重新进行点积运算得到上下文向量，这样得到的新特征作为下一次长短期记忆网络单元结构的输入；分配权重后的图像特征vatt既包含了当前步词语的文本信息，还对需要着重关注的图像区域进行了突出；其中m代表图像特征的通道数；4.3将vatt与根据标签所得到的语义信息s进行整合，采用的公式如下：其中的Uv，Us为全连接层可学习的参数，e为数学中常数2.71828。

全文数据：

权利要求：

百度查询：北京航空航天大学一种基于复合图像语义的图像描述方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

下一篇：电子设备_深圳市嘉晋实业有限公司_202322601396.2

相关技术

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种无缝钢管送料设备_宁波东进钢管有限公司_202322167126.5

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

龙图腾网&IPTOP

【发明授权】一种基于复合图像语义的图像描述方法_北京航空航天大学_202110376986.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务