买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多模态预训练模型的视觉实体链接方法_南京邮电大学_202410148671.6 

申请/专利权人:南京邮电大学

申请日:2024-02-02

公开(公告)日:2024-04-09

公开(公告)号:CN117689963B

主分类号:G06V10/764

分类号:G06V10/764;G06F40/279;G06F18/25;G06F18/241;G06F40/186;G06F18/213;G06T7/11;G06V10/40;G06V10/774;G06V10/80

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明属于视觉实体链接技术领域,公开了一种基于多模态预训练模型的视觉实体链接方法,选择视觉实体链接的多模态多粒度数据集,利用多模态预训练模型启发式的生成候选实体,再通过启发式增强提示和实体链接模块筛选出最佳实体。本发明所述方法能够充分利用图像和文本的多模态信息,提高视觉实体链接的准确性和鲁棒性。

主权项:1.一种基于多模态预训练模型的视觉实体链接方法,其特征在于,包括以下步骤:步骤1、选择视觉实体链接的多模态多粒度数据集;步骤2、在所述多模态多粒度数据集上,构建多模态大模型;所述多模态大模型包括主干模型Mb和分类头模型Mh;所述主干模型Mb融合多模态输入,得到融合特征z;所述分类头模型Mh将融合特征z投影到实体词汇表的预测向量y上;所述主干模型包括图像编码器、文本编码器和交叉编码器;所述图像编码器使用CLIP的ViT-L14作为特征提取器,将图像分割成若干个区域,并提取每个区域的特征向量;文本编码器使用指令训练的FlanT5模型作为特征提取器,将文本查询分词,并提取每个词的特征向量;交叉编码器使用Q-Former作为特征融合器,将图像和文本的特征向量进行自注意力和交叉注意力的计算,得到融合特征z,融合特征z的公式如下: ,其中,Mb指经过多模态大模型主干模型将图片和文本变成融合特征z;v表示图片的特征向量,q表示文本的特征向量;所述分类头模型Mh由一个线性层和一个sigmoid函数组成,将融合特征z投影到实体词汇的预测向量y上;预测向量y的计算公式如下: ,其中,Mh指经过多模态大模型的分类头模型,输出融合特征的预测向量;步骤3、采用启发式方法,利用分类头模型Mh生成测试数据的候选实体;步骤4、利用主干模型Mb进行实体关联,生成测试数据的多个实体关联的示例;步骤5、根据提示模板要求,将提示头、上下文信息和测试数据填入提示模板中形成提示;步骤6、将所述提示输入到多模态模型中,生成启发式的预测实体;步骤7、基于BM25算法,匹配与预测实体最相近的多个知识库实体;步骤8、对最后链接的实体进行准确率计算,比较知识库实体与真实实体的一致性。

全文数据:

权利要求:

百度查询: 南京邮电大学 一种基于多模态预训练模型的视觉实体链接方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。