买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】长时记忆增强的段落级别图像描述生成方法_清华大学_202110609977.3 

申请/专利权人:清华大学

申请日:2021-06-01

公开(公告)日:2024-04-26

公开(公告)号:CN113591874B

主分类号:G06V10/46

分类号:G06V10/46;G06V10/82;G06N3/044;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2021.11.19#实质审查的生效;2021.11.02#公开

摘要:本申请提出了一种长时记忆增强的段落级别图像描述生成方法,涉及图像描述技术领域,其中,该方法包括:通过预训练的卷积神经网络对待描述图像进行图像特征编码;通过第一循环神经网络对历史信息进行历史信息编码;使用注意力机制从高容量记忆池中检索出与历史信息编码相关的历史记忆信息,将其映射成一个记忆向量得到记忆增强的历史信息编码;通过第二循环神经网络将利用视觉注意力机制获取的图像上下文视觉特征和记忆增强的历史信息编码处理为预测向量,基于预测向量使用softmax层预测下一时刻的词的分布信息,完成自然语言描述生成。本发明充分利用历史的信息,有效加强循环神经网络的长时上下文关系建模能力,提升段落级别的图像描述效果。

主权项:1.一种长时记忆增强的段落级别图像描述生成方法,其特征在于,包括以下步骤:获取待描述的图像,并通过预训练的卷积神经网络对所述图像进行图像特征编码;获取历史信息并通过第一循环神经网络对所述历史信息进行历史信息编码,其中,所述第一循环神经网络将所述历史信息编码成两个隐藏向量,在当前时刻t,将上一时刻t-1的预测结果输入到所述第一循环神经网络中,所述第一循环神经网络根据门控网络来更新所述隐藏向量,并将当前时刻t的信息融合到历史信息中进行编码更新;通过高容量记忆池存储每个时刻的历史信息,使用注意力机制从所述高容量记忆池中检索出与所述历史信息编码相关的历史记忆信息,并将检索到的所述历史记忆信息映射成一个记忆向量,以得到记忆增强的历史信息编码;利用视觉注意力机制获取所述图像特征编码的图像上下文视觉特征,通过第二循环神经网络将所述图像上下文视觉特征和所述记忆增强的历史信息编码处理为预测向量,基于所述预测向量使用softmax层预测下一时刻的词的分布信息,完成自然语言描述生成;在所述通过预训练的卷积神经网络对所述图像进行图像特征编码中,具体包括以下步骤:通过对象检测模型自动识别所述图像中的显著性对象的语义信息和位置信息,选取概率最高的36个对象区域,并使用区域池化的方式得到所述图像的全局特征,所述图像的全局特征和每个所述对象区域的局部区域特征分别表示为: 其中,表示图像的全局特征,每个是一个2048维度的向量,并定义局部区域特征,为对象区域的个数;在所述高容量记忆池中设定一个容量阈值,当所述高容量记忆池中的历史记忆信息超过所述容量阈值时,通过压缩型循环神经网络对所述高容量记忆池中的所述历史记忆信息进行记忆压缩,并清空所述高容量记忆池,其中,使用三个线性变换产生所述注意力机制的查询特征、关键码特征和值特征,通过下述公式表示: 其中,是线性变换的可学习参数,是记忆池中记忆信息的索引,是查询特征,是第个关键码特征,是第个值特征,是高容量记忆池中缓存的第i个记忆信息,将所述查询特征、所述关键码特征和所述值特征平均分为n个部分,通过下述公式表示: 其中,是查询特征的第j个部分特征,是第i个关键码特征的第j个部分特征,是第i个值特征的第j个部分特征,,使用来计算第j个头的注意力,并将n个注意力头得到的结果拼接得到最后的注意力结果,其中,通过下述公式获取所述第j个头的注意力: 所述注意力结果表示为:;将所述注意力结果输入到自然语言描述生成部分的同时,将其保存至所述高容量记忆池中,当所述高容量记忆池中的历史记忆信息超过所述容量阈值时,通过所述压缩型循环神经网络对所述高容量记忆池中的所述历史记忆信息进行记忆压缩,并清空所述高容量记忆池,其中,通过下式表示清空所述高容量记忆池: 其中,是压缩型循环神经网络,为压缩性循环神经网络的隐藏向量,为上述注意力结果,为高容量记忆池,为记忆增强的历史信息编码;通过下述公式表示所述利用视觉注意力机制获取所述图像特征编码的图像上下文视觉特征: 其中,为图像上下文视觉特征,为记忆增强的历史信息编码,是图像的局部区域特征,,,是可学习的参数,通过所述第二循环神经网络将所述图像上下文视觉特征和所述记忆增强的历史信息编码处理为预测向量,通过下述公式表示基于所述预测向量使用softmax层预测下一时刻的词的分布信息: 其中,是第二循环神经网络,是上一个时刻的第二隐藏向量,是当前时刻更新后的第二隐藏向量,为图像上下文视觉特征,为记忆增强的历史信息编码,、是可学习的线性变换矩阵和偏置向量,是下一个时刻的词的概率分布。

全文数据:

权利要求:

百度查询: 清华大学 长时记忆增强的段落级别图像描述生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。