【发明授权】一种基于Transformer结构的图像描述方法和装置_北京中科明彦科技有限公司_202111576047.9

导航：龙图腾网> 最新专利技术> 一种基于Transformer结构的图像描述方法和装置_北京中科明彦科技有限公司_202111576047.9

申请/专利权人：北京中科明彦科技有限公司

申请日：2021-12-21

公开（公告）日：2022-09-20

公开（公告）号：CN114399646B

主分类号：G06V10/44

分类号：G06V10/44;G06V10/80;G06V10/82;G06F40/284;G06F40/30;G06F16/33;G06N3/04;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2022.09.20#授权;2022.05.13#实质审查的生效;2022.04.26#公开

摘要：本发明公开了一种基于Transformer结构的图像描述方法和装置，包括：采用swinTransformer基础编码器对原始图像信息进行编码，并提取图像特征向量；采用基于Transformer结构的特征增强编码器分别捕获图像初始特征VG和图像全局特征Vg模态内的隐含关系实现特征增强，得到图像增强特征和图像增强全局特征采用基于Transformer结构的解码器对文本信息、所述图像增强特征以及所述图像增强全局特征进行特征融合，生成对应的图像描述并输出。本发明实现了图像描述任务从两个阶段任务集成到一个阶段，模型结构统一且参数量更少，缩减了模型训练的时间成本和计算成本。

主权项：1.一种基于Transformer结构的图像描述方法，其特征在于，包括：采用swinTransformer基础编码器对原始图像信息进行编码，并提取图像特征向量，其中，所述图像特征向量包括图像初始特征VG和图像全局特征Vg，包括：采用swinTransformer基础编码器对原始图像信息进行编码，并提取图像特征向量，包括：将大小为H×W×C1的原始图像输入至swinTransformer基础编码器，输出大小为的第一图像特征向量；其中，H表示原始图像的高度，W表示原始图像的宽度，C1表示第一通道数量，C2表示第二通道数量，k表示原始图像的压缩比例；采用全连接层对所述第一图像特征向量进行投影降维，得到图像初始特征VG；其中，所述图像初始特征VG的大小为C3表示第三通道数量；采用平均池化层选取所述图像初始特征VG的平均值，将该平均值作为图像全局特征Vg；其中，所述图像全局特征Vg的大小为1×C3；采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强，得到图像增强特征和图像增强全局特征采用基于Transformer结构的解码器对文本信息、所述图像增强特征以及所述图像增强全局特征进行特征融合，生成对应的图像描述并输出，包括：在t时间步，利用解码器的预融合模块对所述图像增强全局特征和当前时间步之前已生成的t-1个单词的单词嵌入向量进行特征融合，并输出包含图像信息和文本信息的第一多模态特征向量对所述第一多模态特征向量采用解码器的单词语义信息抽取模块抽取当前时间步所需的语义信息嵌入；利用解码器的后融合模块对当前时间步所需的语义信息嵌入和所述图像增强特征进行特征融合，得到第二多模态特征向量采用全连接层将所述第二多模态特征向量投影到词汇表空间，得到当前时间步生成每个单词的概率，选取概率最大的单词作为当前时间步的图像描述并输出。

全文数据：

权利要求：

百度查询：北京中科明彦科技有限公司一种基于Transformer结构的图像描述方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于特殊气体大流量供应设备_上海盛韬半导体科技有限公司_202322648334.7

下一篇：一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

相关技术

一种用于特殊气体大流量供应设备_上海盛韬半导体科技有限公司_202322648334.7

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种装饰线条切割装置_安徽哲诚建筑工程有限公司_202322634078.6

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种塑料标签_南通星焰智能科技有限公司_202322574742.2

一种油菜脱粒风选机_中垦锦绣华农武汉科技有限公司_202322701305.2

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

一种软化水系统压力缓冲设备_青岛海越水处理设备有限公司_202322679087.7

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

龙图腾网&IPTOP

【发明授权】一种基于Transformer结构的图像描述方法和装置_北京中科明彦科技有限公司_202111576047.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务