申请/专利权人:重庆长安汽车股份有限公司
申请日:2024-01-03
公开(公告)日:2024-04-09
公开(公告)号:CN117851970A
主分类号:G06F18/25
分类号:G06F18/25;G06F18/2415
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.26#实质审查的生效;2024.04.09#公开
摘要:本发明公开了一种视觉问答方法,包括:对待处理图像和待处理文本问题进行特征提取,得到图像特征和文本问题特征;对所述图像特征和所述文本问题特征进行特征融合,得到第一特征向量;对待处理图像进行特征提取,得到第二特征向量;基于所述第一特征向量通过预测模型进行结果预测得到第一预测结果,基于所述第二特征向量通过预测模型进行结果预测得到第二预测结果;对所述第一预测结果与第二预测结果进行软投票,得到目标预测结果。本发明能够在视觉问答时保留特征融合前的完整图像特征,避免损失数据集中的重要信息,且能够进行多模态的有效交互,提高最终输出结果的准确率。
主权项:1.一种视觉问答方法,其特征在于,所述方法包括:对待处理图像和待处理文本问题进行特征提取,得到图像特征和文本问题特征;对所述图像特征和所述文本问题特征进行特征融合,得到第一特征向量;对待处理图像进行特征提取,得到第二特征向量;基于所述第一特征向量通过预测模型进行结果预测得到第一预测结果,基于所述第二特征向量通过预测模型进行结果预测得到第二预测结果;对所述第一预测结果与第二预测结果进行软投票,得到目标预测结果。
全文数据:
权利要求:
百度查询: 重庆长安汽车股份有限公司 一种视觉问答方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。