申请/专利权人:齐鲁工业大学(山东省科学院)
申请日:2023-12-21
公开(公告)日:2024-03-19
公开(公告)号:CN117725253A
主分类号:G06F16/583
分类号:G06F16/583;G06F16/532;G06F16/33;G06F18/213;G06F18/22;G06V10/42;G06V10/44;G06V10/82;G06N3/042;G06N3/0464;G06N5/04;G06N3/045
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.05#实质审查的生效;2024.03.19#公开
摘要:本公开提供了基于语义关系和交叉注意力机制的图文检索方法及系统,涉及图文检索技术领域,同时考虑到模态内和模态间关系,针对模态内部挖掘图像区域之间和文本单词之间可能存在的关联,充分捕捉模态内存在的上下文关系后,一方面各自通过自注意力机制,得到图像全局特征和文本全局特征,另一方面,通过一个双向交叉注意机制对图像区域和文本单词的模态间关系进行挖掘,每个区域特征被用作查询来为单词特征分配权重,然后对所有单词进行加权求和来获得新的单词表示,同样,可以将每个单词特征用作查询来获得新的图像区域表示,最后通过设定的目标函数优化模型中的参数。本公开能够获得丰富的模态间的特征。
主权项:1.基于语义关系和交叉注意力机制的图文检索方法,其特征在于,包括:获取给定的图像以及文本数据;针对图像数据,提取图像中显著的图像区域,建立各图像区域之间的连接,生成关系图模型,经过图卷积网络推理生成具有语义关系信息的区域特征,经过自注意力机制聚合区域特征得到图像全局特征;针对文本数据,提取文本数据中所有单词的上下文关系生成单词特征,经过自注意力机制聚合单词特征生成文本全局特征;基于区域特征与单词特征,首先计算区域-词相似性矩阵,根据得到的区域-词相似性矩阵,分别应用双向交叉注意力捕获片段之间的关联,每个区域特征被用作查询来为单词特征分配权重,同样,将每个单词特征用作查询来为区域特征分配权重,分别获取新的文本单词表示和图像区域表示,探索图像区域与文本单词之间细粒度的关联,最后将图像全局特征和文本全局特征内积,将聚合区域特征后得到的图像表示与聚合文本单词特征后得到的文本表示内积,两个内积的加权和即为图像和文本的相似性得分。
全文数据:
权利要求:
百度查询: 齐鲁工业大学(山东省科学院) 基于语义关系和交叉注意力机制的图文检索方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。