【发明公布】视觉问答模型的训练方法、训练装置和视觉问答系统_北京捷通华声科技股份有限公司_202311784157.3

申请/专利权人：北京捷通华声科技股份有限公司

申请日：2023-12-22

公开（公告）日：2024-03-19

公开（公告）号：CN117726914A

主分类号：G06V10/80

分类号：G06V10/80;G06V10/764;G06V10/774;G06V10/776

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.05#实质审查的生效;2024.03.19#公开

摘要：本申请提供了一种视觉问答模型的训练方法、训练装置和视觉问答系统，该方法包括：第一获取步骤，获取图像答案对；输入步骤，将图像答案对输入CLIP模型得到第一损失值；第二获取步骤，获取标准答案，并计算图像答案对中的文本答案和标准答案的第二损失值；计算步骤，根据第一损失值和第二损失值进行加权计算得到目标损失值；第三获取步骤，获取多个模型参数组，并根据各目标损失值通过ADAM算法修正各模型参数组得到多个修正参数组；重复第一获取步骤、输入步骤、第二获取步骤、计算步骤和第三获取步骤，直至各目标损失值均小于第一阈值。该方法解决了现有技术中视觉问答模型倾向于文本的拟合，对图像的拟合较低导致模型鲁棒性较差的问题。

主权项：1.一种视觉问答模型的训练方法，其特征在于，包括：第一获取步骤，获取多个图像答案对，一个所述图像答案对包括一个输入图像和一个文本答案，各所述图像答案对中的输入图像一致，不同所述图像答案对中的所述答案为所述输入图像输入不同视觉问答模型得到，所述视觉问答模型包括Web-QA、V-Doc、TGIF-QA和NuScenes-QA；输入步骤，将各所述图像答案对输入CLIP模型得到对应的损失函数值得到多个第一损失值；第二获取步骤，获取标准答案，并计算各所述图像答案对中的所述文本答案和所述标准答案之间的BLEU得到多个第二损失值；计算步骤，根据各所述第一损失值和对应所述第二损失值进行加权计算得到多个目标损失值；第三获取步骤，获取多个模型参数组，并根据各所述目标损失值通过ADAM算法修正各所述模型参数组得到多个修正参数组，多个所述模型参数组包括不同所述视觉问答模型的模型参数；依次重复所述第一获取步骤、所述输入步骤、所述第二获取步骤、所述计算步骤和所述第三获取步骤至少一次，直至各所述目标损失值均小于第一阈值。

全文数据：

权利要求：

百度查询：北京捷通华声科技股份有限公司视觉问答模型的训练方法、训练装置和视觉问答系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种水泥砼搅拌机用振动下料装置_巢湖市恒峰建设工程有限公司_202322581391.8

下一篇：一种高效散热电源_广州市力为电子有限公司_202322175013.X

相关技术

一种水泥砼搅拌机用振动下料装置_巢湖市恒峰建设工程有限公司_202322581391.8

一种高效散热电源_广州市力为电子有限公司_202322175013.X

一种高效型苗种植机_海南勤璞园农业科技有限公司_202322496666.8

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

一种LED线性地埋灯_上海科铃纳光电科技有限公司_202322244017.9

一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

一种打印机线路板加工用吸附输送轨道_威海光大光电有限公司_202322481598.8

龙图腾网&IPTOP

【发明公布】视觉问答模型的训练方法、训练装置和视觉问答系统_北京捷通华声科技股份有限公司_202311784157.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务