买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】视觉问答模型的训练方法、训练装置和视觉问答系统_北京捷通华声科技股份有限公司_202311784157.3 

申请/专利权人:北京捷通华声科技股份有限公司

申请日:2023-12-22

公开(公告)日:2024-03-19

公开(公告)号:CN117726914A

主分类号:G06V10/80

分类号:G06V10/80;G06V10/764;G06V10/774;G06V10/776

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.05#实质审查的生效;2024.03.19#公开

摘要:本申请提供了一种视觉问答模型的训练方法、训练装置和视觉问答系统,该方法包括:第一获取步骤,获取图像答案对;输入步骤,将图像答案对输入CLIP模型得到第一损失值;第二获取步骤,获取标准答案,并计算图像答案对中的文本答案和标准答案的第二损失值;计算步骤,根据第一损失值和第二损失值进行加权计算得到目标损失值;第三获取步骤,获取多个模型参数组,并根据各目标损失值通过ADAM算法修正各模型参数组得到多个修正参数组;重复第一获取步骤、输入步骤、第二获取步骤、计算步骤和第三获取步骤,直至各目标损失值均小于第一阈值。该方法解决了现有技术中视觉问答模型倾向于文本的拟合,对图像的拟合较低导致模型鲁棒性较差的问题。

主权项:1.一种视觉问答模型的训练方法,其特征在于,包括:第一获取步骤,获取多个图像答案对,一个所述图像答案对包括一个输入图像和一个文本答案,各所述图像答案对中的输入图像一致,不同所述图像答案对中的所述答案为所述输入图像输入不同视觉问答模型得到,所述视觉问答模型包括Web-QA、V-Doc、TGIF-QA和NuScenes-QA;输入步骤,将各所述图像答案对输入CLIP模型得到对应的损失函数值得到多个第一损失值;第二获取步骤,获取标准答案,并计算各所述图像答案对中的所述文本答案和所述标准答案之间的BLEU得到多个第二损失值;计算步骤,根据各所述第一损失值和对应所述第二损失值进行加权计算得到多个目标损失值;第三获取步骤,获取多个模型参数组,并根据各所述目标损失值通过ADAM算法修正各所述模型参数组得到多个修正参数组,多个所述模型参数组包括不同所述视觉问答模型的模型参数;依次重复所述第一获取步骤、所述输入步骤、所述第二获取步骤、所述计算步骤和所述第三获取步骤至少一次,直至各所述目标损失值均小于第一阈值。

全文数据:

权利要求:

百度查询: 北京捷通华声科技股份有限公司 视觉问答模型的训练方法、训练装置和视觉问答系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。