【发明授权】一种基于多模态预训练模型的视觉实体链接方法_南京邮电大学_202410148671.6

导航：龙图腾网> 最新专利技术> 一种基于多模态预训练模型的视觉实体链接方法_南京邮电大学_202410148671.6

申请/专利权人：南京邮电大学

申请日：2024-02-02

公开（公告）日：2024-04-09

公开（公告）号：CN117689963B

主分类号：G06V10/764

分类号：G06V10/764;G06F40/279;G06F18/25;G06F18/241;G06F40/186;G06F18/213;G06T7/11;G06V10/40;G06V10/774;G06V10/80

优先权：

专利状态码：有效-授权

法律状态：2024.04.09#授权;2024.03.29#实质审查的生效;2024.03.12#公开

摘要：本发明属于视觉实体链接技术领域，公开了一种基于多模态预训练模型的视觉实体链接方法，选择视觉实体链接的多模态多粒度数据集，利用多模态预训练模型启发式的生成候选实体，再通过启发式增强提示和实体链接模块筛选出最佳实体。本发明所述方法能够充分利用图像和文本的多模态信息，提高视觉实体链接的准确性和鲁棒性。

主权项：1.一种基于多模态预训练模型的视觉实体链接方法，其特征在于，包括以下步骤：步骤1、选择视觉实体链接的多模态多粒度数据集；步骤2、在所述多模态多粒度数据集上，构建多模态大模型；所述多模态大模型包括主干模型Mb和分类头模型Mh；所述主干模型Mb融合多模态输入，得到融合特征z；所述分类头模型Mh将融合特征z投影到实体词汇表的预测向量y上；所述主干模型包括图像编码器、文本编码器和交叉编码器；所述图像编码器使用CLIP的ViT-L14作为特征提取器，将图像分割成若干个区域，并提取每个区域的特征向量；文本编码器使用指令训练的FlanT5模型作为特征提取器，将文本查询分词，并提取每个词的特征向量；交叉编码器使用Q-Former作为特征融合器，将图像和文本的特征向量进行自注意力和交叉注意力的计算，得到融合特征z，融合特征z的公式如下：，其中，Mb指经过多模态大模型主干模型将图片和文本变成融合特征z；v表示图片的特征向量，q表示文本的特征向量；所述分类头模型Mh由一个线性层和一个sigmoid函数组成，将融合特征z投影到实体词汇的预测向量y上；预测向量y的计算公式如下：，其中，Mh指经过多模态大模型的分类头模型，输出融合特征的预测向量；步骤3、采用启发式方法，利用分类头模型Mh生成测试数据的候选实体；步骤4、利用主干模型Mb进行实体关联，生成测试数据的多个实体关联的示例；步骤5、根据提示模板要求，将提示头、上下文信息和测试数据填入提示模板中形成提示；步骤6、将所述提示输入到多模态模型中，生成启发式的预测实体；步骤7、基于BM25算法，匹配与预测实体最相近的多个知识库实体；步骤8、对最后链接的实体进行准确率计算，比较知识库实体与真实实体的一致性。

全文数据：

权利要求：

百度查询：南京邮电大学一种基于多模态预训练模型的视觉实体链接方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

下一篇：一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

相关技术

一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种新型加湿器_莆田市必捷电子有限公司_202322599727.3

一种无人机使用高清摄像模组_陕西泰沃云科技有限公司_202322392870.5

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

龙图腾网&IPTOP

【发明授权】一种基于多模态预训练模型的视觉实体链接方法_南京邮电大学_202410148671.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务