恭喜武汉大学邹勤获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜武汉大学申请的专利基于多模态大模型的表观缺陷检测方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119762485B 。
龙图腾网通过国家知识产权局官网在2025-05-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510258419.5,技术领域涉及:G06T7/00;该发明授权基于多模态大模型的表观缺陷检测方法及系统是由邹勤;赵守玺;毛庆洲;余招勇;李清泉设计研发完成,并于2025-03-06向国家知识产权局提交的专利申请。
本基于多模态大模型的表观缺陷检测方法及系统在说明书摘要公布了:本发明公开了一种基于多模态大模型的表观缺陷检测方法及系统。首先,设计提示词,利用GPT‑4V自动标注缺陷图像来构建缺陷图像‑掩膜‑文字描述数据集;其次,利用此数据集微调预训练的大语言骨干网络,使其能更好地理解缺陷检测任务;然后,针对编码器各层视觉特征,设计了一种多视觉尺度token组机制,再利用轻量级掩膜解码器输出缺陷检测结果;最后,结合大语言骨干网络的文字描述输出,设计了一种结合缺陷检测掩膜和缺陷文字描述的缺陷检测算法,大幅提高了工业生产环境中的缺陷检测准确率。
本发明授权基于多模态大模型的表观缺陷检测方法及系统在权利要求书中公布了:1.基于多模态大模型的表观缺陷检测方法,其特征在于,包括以下步骤:标注训练数据集,所述训练数据集中包含缺陷图像、缺陷图像对应的掩膜和文字描述;对缺陷图像进行编码,提取视觉特征,并为编码器分配L×N个token,其中L表示视觉尺度的数量,N表示每个视觉尺度所分配的token数量;将编码后的视觉特征对齐到语言特征空间;利用大语言骨干网络,训练时,输入缺陷图像的文字描述、多尺度token组和对齐到语言特征空间的视觉特征,处理后得到语言类型token和视觉类型token,并将语言类型token解码为缺陷图像的文字描述和评估;将视觉类型token对齐到视觉特征空间;对编码后的视觉特征与对齐后的视觉类型token进行解码,得到最终的检测掩膜图;对编码器、语言特征对齐视觉特征、大语言骨干网络、视觉特征对齐语言特征、解码器组成的多模态大模型进行训练,并利用训练好的多模态大模型进行缺陷检测;所述多模态大模型进行训练时,采用以下损失: =+其中,表示自回归交叉熵损失,和为超参数; =-Y={}为数据集中真实的文字标签序列,为在已知真实文字标签序列Y的基础上预测当前时刻标签的概率; = 表示逐像素二元交叉熵损失,H、W分别表示mask的高度和宽度,表示预测的掩膜图中第i个像素的二进制值,表示数据集中的地面真相掩膜。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉大学,其通讯地址为:430072 湖北省武汉市武昌区八一路299号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。