申请/专利权人:西北大学
申请日:2022-01-19
公开(公告)日:2024-04-16
公开(公告)号:CN114547235B
主分类号:G06F16/33
分类号:G06F16/33;G06F40/211;G06F40/216;G06F40/289;G06F40/30;G06N3/0464;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2024.04.16#授权;2022.06.14#实质审查的生效;2022.05.27#公开
摘要:本发明涉及基于先验知识图的图像文本匹配模型的构建方法,构建的模型包括先验知识图模块、图像文本匹配模块和整合模块;先验知识图模块和图像文本匹配模块分别与整合模块相连接。采用构建外部先验知识图来指导图像文本匹配,极大增强模型对真实场景的理解能力,利用图卷积来构建先验知识图之间的关系,取代使用交叉注意力机制成对的计算所有图像区域和文本片段之间的局部注意力关系,减少了计算量和参数量,提高了模型的训练速度和推理速度;使用自注意力机制transformer来聚合图像区域间的注意力关系;使用预训练模型BERT提取文本特征向量,再利用注意力机制来聚合文本向量中词与词之间的注意力关系;有效提高了图像文本匹配的准确率。
主权项:1.一种基于先验知识图的图像文本匹配模型的构建方法,其特征在于,所构建的基于先验知识图的图像文本匹配模型包括先验知识图模块、图像文本匹配模块和整合模块;其中,先验知识图模块和图像文本匹配模块分别与整合模块相连接,具体的构建步骤如下:步骤1,先验知识图模块的构建:利用统计学方法从文本语料库中提取有意义的单词,利用glove技术对提取的单词进行词嵌入操作,将单词表示为词特征向量,称其为先验知识;根据单词在语料库中共同出现的统计学概率,构建先验知识关系图;利用图卷积来学习先验知识之间的相互依赖关系;步骤2,图像文本匹配模块的构建:给定图像数据和文本数据后,利用预训练的Faster-RCNN模型获取图像特征向量,利用预训练的BERT模型获取文本特征向量;利用自注意力机制对图像特征向量进行模态内上下文信息聚合,得到第一层图像特征;利用自注意力机制对文本特征向量进行模态内上下文信息聚合,得到第一层文本特征;步骤3,整合模块的构建:利用图卷积所学习到的先验知识来指导第一层图像特征和第一层文本特征,输出经过先验知识图指导的第二层图像特征和第二层文本特征;将第二层图像特征和第一层图像特征进行加权组合,得到整合模块的第三层图像特征;将第二层文本特征和第一层文本特征进行加权组合,得到整合模块的第三层文本特征;步骤4,利用第一层图像文本特征和第三层图像文本特征构建损失函数;步骤5,训练和测试获得基于先验知识图的图像文本匹配模型。
全文数据:
权利要求:
百度查询: 西北大学 基于先验知识图的图像文本匹配模型的构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。