恭喜厦门崛鼎科技股份有限公司丰江帆获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜厦门崛鼎科技股份有限公司申请的专利一种基于分工决策的视觉问答模型的视觉问答方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114283292B 。
龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111483361.2,技术领域涉及:G06V10/44;该发明授权一种基于分工决策的视觉问答模型的视觉问答方法及系统是由丰江帆;刘睿国;龙仁华;易成杰设计研发完成,并于2021-12-07向国家知识产权局提交的专利申请。
本一种基于分工决策的视觉问答模型的视觉问答方法及系统在说明书摘要公布了:本发明属于图像问答领域,具体涉及一种基于分工决策的视觉问答模型的视觉问答方法及系统,该方法包括:获取视觉图像和待回答的问题,将视觉图像和待回答的问题输入到LRBNet模型中,得到问答结果;LRBNet模型包括视觉理解模块、文本理解模块以及交换模块;所述视觉理解模块用于得到视觉特征图,所述文本理解模块用于得到文本特征图,所述交换模块用于对视觉特征图和文本特征图进行数据交互,根据交互数据更新节点;视觉空间特征图和文本语义信息进行关联和更新,得到最终的问答结果;本发明将文本语义信息和视觉空间信息分离处理,只在最后将处理的结果融合,降低了其他VQA模型因跨模态融合而提高的推理难度。
本发明授权一种基于分工决策的视觉问答模型的视觉问答方法及系统在权利要求书中公布了:1.一种基于分工决策的视觉问答模型的视觉问答系统,其特征在于,该系统包括:特征获取模块、分工决策模块以及答案输出模块;所述特征获取模块用于获取图像的视觉特征和问题的文本特征,并输入到分工决策模块中;所述分工决策模块包括预处理模块、视觉理解模块、文本理解模块、交换模块以及答案预测模块;所述预处理模块用于将问题文本转化为视觉特征,并提取图像的局部视觉特征和局部文本信息,将问题文本转化的视觉特征和图像的局部视觉特征输入到视觉理解模块,将局部文本信息输入到文本理解模块;数据预处理模块将问题文本转化为视觉特征的过程包括:采用文本-图像网络DM-GAN对训练集中与图像有关的问题进行转化,得到该问题的图像,并采用ResNet50网络对转化后的图像进行特征提取,得到与问题有关的视觉特征Q2Ifeature;所述视觉理解模块用于处理来自预处理模块的输出,经过筛选、图构建和空间关系建模,得到视觉特征图并输入到交换模块;具体包括:采用边界框裁剪模块BoundingBoxClipping和矩阵创建模块AdjacencyMatrixCreating对图像局部特征Imagefeatures和Q2Ifeature进行筛选和图构建,得到邻接矩阵和视觉特征图;将Imagefeatures与Q2Ifeature进行拼接并和邻接矩阵一起输入到空间关系学习模块SpatialRelationLearning中进行空间关系建模;采用残差连接模块AddNorm将关系建模后的视觉特征与建模之前的特征相加并归一化,得到视觉空间特征;所述文本理解模块用于处理文本信息,经过筛选、计数和语义关系建模,将得到的文本特征图输入到交换模块,将计数结果的one-hot向量输入到问题预测模块;文本信息包括问题文本和来自数据预处理模块的图像的局部文本信息;具体包括:采用LSTM对图像的文本信息Imagecaptions和问题文本Question进行编码;采用边界框裁剪模块BoundingBoxClipping和邻接矩阵构建模块Createadjacencymatrix对编码后的Imagecaptions和Question进行筛选和图构建,得到邻接矩阵和文本特征图;将筛选的结果送入Count模块中进行计数得到C;将编码后的Imagecaptions和Question进行拼接并和邻接矩阵一起输入到语义关系学习模块SemanticRelationLearning进行语义关系建模;采用AddNorm模块将关系建模后的特征与建模之前的特征相加并归一化,得到文本语义特征;所述交换模块用于在视觉理解模块和文本理解模块之间进行数据交互,接收来自视觉理解模块的视觉特征图和文本理解模块的文本特征图,通过数据交互,对视觉特征图和文本特征图进行一轮或多轮迭代更新,并将最后一轮迭代更新的视觉特征图和文本特征图分别反馈给视觉理解模块和文本理解模块;迭代更新的具体包括:分别获取视觉特征图和文本特征图中每个节点的特征值集合,利用两个特征值集合计算两个特征图之间的注意力系数矩阵,利用注意力系数矩阵分别和两个特征图的每个节点进行加权平均,并利用特征线性调制对每个节点进行更新;所述问题预测模块用于获取文本理解模块和视觉理解模块中的更新后的文本特征图、更新后的视觉特征图以及one-hot向量,并根据得到的特征得到问题的答案;具体包括:采用注意力机制计算问题文本特征和文本语义特征的注意力系数,将注意力系数和文本语义特征进行加权平均得到文本语义嵌入capemb,将capemb送入多层感知机MLP中得到文本理解模块预测的概率p2;采用注意力机制计算问题转化的视觉特征Q2Ifeature和视觉空间特征的注意力系数,将注意力系数和视觉空间特征进行加权平均得到视觉空间嵌入Vemb,将Vemb送入多层感知机MLP中得到视觉理解模块预测的概率p3;将capemb,Vemb以及C进行拼接送入多层感知机MLP中得到联合嵌入预测的概率p1;所述答案输出模块用于输出问题预测模块得到的问题答案。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门崛鼎科技股份有限公司,其通讯地址为:361008 福建省厦门市软件园二期观日路44号401单元A区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。