买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于Transformer结构的图像描述方法和装置_北京中科明彦科技有限公司_202111576047.9 

申请/专利权人:北京中科明彦科技有限公司

申请日:2021-12-21

公开(公告)日:2022-09-20

公开(公告)号:CN114399646B

主分类号:G06V10/44

分类号:G06V10/44;G06V10/80;G06V10/82;G06F40/284;G06F40/30;G06F16/33;G06N3/04;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2022.09.20#授权;2022.05.13#实质审查的生效;2022.04.26#公开

摘要:本发明公开了一种基于Transformer结构的图像描述方法和装置,包括:采用swinTransformer基础编码器对原始图像信息进行编码,并提取图像特征向量;采用基于Transformer结构的特征增强编码器分别捕获图像初始特征VG和图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征和图像增强全局特征采用基于Transformer结构的解码器对文本信息、所述图像增强特征以及所述图像增强全局特征进行特征融合,生成对应的图像描述并输出。本发明实现了图像描述任务从两个阶段任务集成到一个阶段,模型结构统一且参数量更少,缩减了模型训练的时间成本和计算成本。

主权项:1.一种基于Transformer结构的图像描述方法,其特征在于,包括:采用swinTransformer基础编码器对原始图像信息进行编码,并提取图像特征向量,其中,所述图像特征向量包括图像初始特征VG和图像全局特征Vg,包括:采用swinTransformer基础编码器对原始图像信息进行编码,并提取图像特征向量,包括:将大小为H×W×C1的原始图像输入至swinTransformer基础编码器,输出大小为的第一图像特征向量;其中,H表示原始图像的高度,W表示原始图像的宽度,C1表示第一通道数量,C2表示第二通道数量,k表示原始图像的压缩比例;采用全连接层对所述第一图像特征向量进行投影降维,得到图像初始特征VG;其中,所述图像初始特征VG的大小为C3表示第三通道数量;采用平均池化层选取所述图像初始特征VG的平均值,将该平均值作为图像全局特征Vg;其中,所述图像全局特征Vg的大小为1×C3;采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征VG和所述图像全局特征Vg模态内的隐含关系实现特征增强,得到图像增强特征和图像增强全局特征采用基于Transformer结构的解码器对文本信息、所述图像增强特征以及所述图像增强全局特征进行特征融合,生成对应的图像描述并输出,包括:在t时间步,利用解码器的预融合模块对所述图像增强全局特征和当前时间步之前已生成的t-1个单词的单词嵌入向量进行特征融合,并输出包含图像信息和文本信息的第一多模态特征向量对所述第一多模态特征向量采用解码器的单词语义信息抽取模块抽取当前时间步所需的语义信息嵌入;利用解码器的后融合模块对当前时间步所需的语义信息嵌入和所述图像增强特征进行特征融合,得到第二多模态特征向量采用全连接层将所述第二多模态特征向量投影到词汇表空间,得到当前时间步生成每个单词的概率,选取概率最大的单词作为当前时间步的图像描述并输出。

全文数据:

权利要求:

百度查询: 北京中科明彦科技有限公司 一种基于Transformer结构的图像描述方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。