【发明授权】基于预训练及双层注意力的图像描述生成系统的构建方法_沈阳雅译网络技术有限公司_202110394217.5

申请/专利权人：沈阳雅译网络技术有限公司

申请日：2021-04-13

公开（公告）日：2024-04-30

公开（公告）号：CN113095405B

主分类号：G06V10/764

分类号：G06V10/764;G06V10/774;G06V10/82;G06N3/0464;G06N3/08;G06N3/0455;G06N3/044

优先权：

专利状态码：有效-授权

法律状态：2024.04.30#授权;2021.07.27#实质审查的生效;2021.07.09#公开

摘要：本发明公开一种基于预训练及双层注意力的图像描述生成系统的构建方法，步骤为：训练开源的图像多标签分类模型；对MSCOCO图像描述数据集进行处理获得训练数据；使用图像多标签分类模型提取图像特征，得到整张图像的对象信息；将整张图像的对象信息与图像特征合并成编码器的结果；使用双层注意力机制处理编码器和解码器传来的信息；整个解码器最终输出图像的描述性语句；将所有模型封装，并部署在服务器端，完成整个系统的搭建。本发明将预训练的图像多标签分类模型纳入编码器中，并创新性地使用双层注意力机制处理编码器和前层解码器传递来的信息，提升了图像描述生成模型识别对象的准确率，相较于普通的图像描述生成模型获得了更好的性能。

主权项：1.一种基于预训练及双层注意力的图像描述生成系统的构建方法，其特征在于包括以下步骤：1训练开源的图像多标签分类模型；2使用MSCOCO图像描述数据集并对数据进行处理；3使用图像多标签分类模型提取图像特征，得到整张图像的对象信息；4将整张图像的对象信息与图像特征合并成编码器的输出；5使用双层注意力机制处理编码器的输出和解码器传来的信息；6解码器最终输出图像的描述性语句；7将整个模型封装，并部署在服务器端，完成整个系统的搭建；步骤5中，采用了双层注意力机制，第一层注意力让解码器根据前一时刻生成的单词，来关注当前时刻应该关注的图像区域；第二层注意力用于对编码器的输出和前层解码器的输出进行建模；在第一层注意力机制中，将前一时刻解码器最高层的输出当作Query，将图像特征当作Key和Value，满足以下条件：Attention1Q,K,V＝SoftmaxFNNQ,KV在第二层注意力机制中，将前一层解码器的输出视为第二层注意力机制的Query，编码器的输出视为Key和Value，满足以下条件：其中Mask掩码矩阵是用于屏蔽无关信息的工具；dk是缩放系数，将编码器的结果分离出图像特征和对象信息，将图像特征部分经过第一层注意力机制的计算得到结果t，再将t与对象信息合并，并经过第二层注意力机制计算，最终得到双层注意力机制的结果。

全文数据：

权利要求：

百度查询：沈阳雅译网络技术有限公司基于预训练及双层注意力的图像描述生成系统的构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

下一篇：基于数字镜像的变电站自动化设备状态诊断方法和系统_北京四方继保工程技术有限公司_202210022507.1

相关技术

一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

基于数字镜像的变电站自动化设备状态诊断方法和系统_北京四方继保工程技术有限公司_202210022507.1

一种新型的自动泊车系统车辆定位方法_英博超算(南京)科技有限公司_202111192951.X

一种基于准零刚度原理的空气悬架及其结构设计与优化方法_江苏大学_202111438418.7

一种基于动网格模拟隧道列车运动的结构网格划分方法_天津大学_202111426137.X

一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

用于控制空调的方法及装置、空调_青岛海尔空调电子有限公司_202210048335.5

一种蜡样芽孢杆菌YZ-228发酵制剂及其制备方法和应用_吉林农业大学_202310313518.X

刷新注册的容错处理方法、装置、CSCF以及介质_中国电信股份有限公司_202010967419.X

一种带有环状槽的齿轮制备模具_蓝山县金山川粉末冶金有限公司_202111384059.1

QLED器件及其制备方法_安阳瑞森显示科技有限公司_202111133433.0

一种外导体压接装置_江苏博之旺自动化设备有限公司_202111235070.1

龙图腾网&IPTOP

【发明授权】基于预训练及双层注意力的图像描述生成系统的构建方法_沈阳雅译网络技术有限公司_202110394217.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务