申请/专利权人:人民网股份有限公司;哈尔滨工业大学
申请日:2021-11-24
公开(公告)日:2024-04-02
公开(公告)号:CN114201621B
主分类号:G06F16/43
分类号:G06F16/43;G06F16/583;G06V10/25;G06V10/774;G06V10/82;G06N3/0464;G06N3/044
优先权:
专利状态码:有效-授权
法律状态:2024.04.02#授权;2022.04.05#实质审查的生效;2022.03.18#公开
摘要:本发明公开了一种基于图文协同注意力的跨模态检索模型构建及检索方法,所述方法包括:获取训练图像和训练文本,分别提取图像样本和文本样本的局部特征;将图像样本所有的局部图像特征和文本样本所有的局部文本特征分别映射为特征向量,并将图像样本和文本样本的特征向量分别表示成矩阵,再得到各自的Key矩阵、Query矩阵和Value矩阵;基于该多个矩阵,计算出图像样本和文本样本的跨模态注意力特征、模态内注意力特征;将跨模态注意力特征和模态内注意力特征进行融合,得到图像样本的全局特征表示和文本样本的全局特征表示;基于所述全局特征表示,训练得到跨模态检索模型。本发明可直接对不同模态的数据进行相似度匹配,具有较高的匹配准确性。
主权项:1.一种基于图文协同注意力的跨模态检索模型构建方法,其特征在于,包括:获取训练图像和训练文本,其中,所述训练图像为带类别标签的图像样本,所述训练文本为带类别标签的文本样本;提取所述图像样本的局部图像特征,以及提取所述文本样本的局部文本特征;将所述图像样本所有的局部图像特征和所述文本样本所有的局部文本特征分别映射为特征向量,并将所述图像样本的特征向量和所述文本样本的特征向量分别表示成矩阵,再分别经过全连接层得到各自的Key矩阵、Query矩阵和Value矩阵;基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的跨模态注意力分数,基于所述跨模态注意力分数分别生成所述图像样本和所述文本样本的跨模态注意力特征;基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的模态内注意力分数,基于所述模态内注意力分数分别生成所述图像样本和所述文本样本的模态内注意力特征;将所述跨模态注意力特征和所述模态内注意力特征进行融合,分别得到所述图像样本的全局特征表示和所述文本样本的全局特征表示;基于所述图像样本的全局特征表示和所述文本样本的全局特征表示,训练得到跨模态检索模型。
全文数据:
权利要求:
百度查询: 人民网股份有限公司;哈尔滨工业大学 基于图文协同注意力的跨模态检索模型构建及检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。