申请/专利权人:沈阳雅译网络技术有限公司
申请日:2021-04-13
公开(公告)日:2024-04-30
公开(公告)号:CN113095405B
主分类号:G06V10/764
分类号:G06V10/764;G06V10/774;G06V10/82;G06N3/0464;G06N3/08;G06N3/0455;G06N3/044
优先权:
专利状态码:有效-授权
法律状态:2024.04.30#授权;2021.07.27#实质审查的生效;2021.07.09#公开
摘要:本发明公开一种基于预训练及双层注意力的图像描述生成系统的构建方法,步骤为:训练开源的图像多标签分类模型;对MSCOCO图像描述数据集进行处理获得训练数据;使用图像多标签分类模型提取图像特征,得到整张图像的对象信息;将整张图像的对象信息与图像特征合并成编码器的结果;使用双层注意力机制处理编码器和解码器传来的信息;整个解码器最终输出图像的描述性语句;将所有模型封装,并部署在服务器端,完成整个系统的搭建。本发明将预训练的图像多标签分类模型纳入编码器中,并创新性地使用双层注意力机制处理编码器和前层解码器传递来的信息,提升了图像描述生成模型识别对象的准确率,相较于普通的图像描述生成模型获得了更好的性能。
主权项:1.一种基于预训练及双层注意力的图像描述生成系统的构建方法,其特征在于包括以下步骤:1训练开源的图像多标签分类模型;2使用MSCOCO图像描述数据集并对数据进行处理;3使用图像多标签分类模型提取图像特征,得到整张图像的对象信息;4将整张图像的对象信息与图像特征合并成编码器的输出;5使用双层注意力机制处理编码器的输出和解码器传来的信息;6解码器最终输出图像的描述性语句;7将整个模型封装,并部署在服务器端,完成整个系统的搭建;步骤5中,采用了双层注意力机制,第一层注意力让解码器根据前一时刻生成的单词,来关注当前时刻应该关注的图像区域;第二层注意力用于对编码器的输出和前层解码器的输出进行建模;在第一层注意力机制中,将前一时刻解码器最高层的输出当作Query,将图像特征当作Key和Value,满足以下条件:Attention1Q,K,V=SoftmaxFNNQ,KV在第二层注意力机制中,将前一层解码器的输出视为第二层注意力机制的Query,编码器的输出视为Key和Value,满足以下条件: 其中Mask掩码矩阵是用于屏蔽无关信息的工具;dk是缩放系数,将编码器的结果分离出图像特征和对象信息,将图像特征部分经过第一层注意力机制的计算得到结果t,再将t与对象信息合并,并经过第二层注意力机制计算,最终得到双层注意力机制的结果。
全文数据:
权利要求:
百度查询: 沈阳雅译网络技术有限公司 基于预训练及双层注意力的图像描述生成系统的构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。