【发明公布】一种视觉语言理解方法、装置、设备及可读存储介质_浪潮电子信息产业股份有限公司_202410186665.X

申请/专利权人：浪潮电子信息产业股份有限公司

申请日：2024-02-20

公开（公告）日：2024-03-22

公开（公告）号：CN117746441A

主分类号：G06V30/19

分类号：G06V30/19;G06V30/18;G06V20/40;G06V10/82;G06N3/0464;G06N3/084;G06N5/022

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.09#实质审查的生效;2024.03.22#公开

摘要：本发明涉及计算机视觉领域，具体公开了一种视觉语言理解方法、装置、设备及可读存储介质，通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息，以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码，以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中，使模型更好地理解图像或视频的内容和上下文信息，引导模型聚焦图像或视频与其对应的语言信息中的重要部分，解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题，提升了计算机视觉的视频语言理解能力，进而精确响应视觉语言相关问题。

主权项：1.一种视觉语言理解方法，其特征在于，包括：获取初始视觉模型和样本数据集；根据待处理视觉理解任务的任务目标对所述初始视觉模型进行损失优化训练，并在训练中根据所述样本数据集搜索视觉模态和文本模态的视觉文本跨模态共识信息以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码，直至达到迭代结束条件，输出视觉理解模型；响应于所述待处理视觉理解任务，调用所述视觉理解模型对输入的视觉信息进行处理，得到视觉理解结果；其中，所述样本数据集为具有文本标注的图像数据集，所述视觉理解模型为图像语言模型；或，所述样本数据集为具有文本标注的视频数据集，所述视觉理解模型为视频语言模型；所述视觉文本跨模态共识信息通过视觉模态和文本模态之间的互信息构建。

全文数据：

权利要求：

百度查询：浪潮电子信息产业股份有限公司一种视觉语言理解方法、装置、设备及可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

下一篇：无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

相关技术

一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种特殊持力层道路施工结构_中建六局土木工程有限公司_202023112178.5

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

一种万寿菊用大型烘干机_丘北立达尔生物科技有限公司_202322498434.6

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

龙图腾网&IPTOP

【发明公布】一种视觉语言理解方法、装置、设备及可读存储介质_浪潮电子信息产业股份有限公司_202410186665.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务