买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于CLIP快速构建图像分类模型的方法_厦门瑞为信息技术有限公司_202311719576.9 

申请/专利权人:厦门瑞为信息技术有限公司

申请日:2023-12-14

公开(公告)日:2024-03-01

公开(公告)号:CN117409262B

主分类号:G06V10/764

分类号:G06V10/764;G06V10/82;G06N3/0464;G06N3/0895

优先权:

专利状态码:有效-授权

法律状态:2024.03.01#授权;2024.02.02#实质审查的生效;2024.01.16#公开

摘要:本发明公开一种基于CLIP快速构建图像分类模型的方法,包括S1、搜集图像;S2、使用CLIP模型筛选特定标签图像;S3、制作分类数据集,将数据集划分为训练集和测试集;S4、使用DivideMix方法训练分类模型。本发明采用CLIP图文匹配技术,通过输入标签文本即可从海量数据中提取出符合标签要求的数据图像,构建出可以用学习分类模型的数据集,而无需人工标注。同时针对筛选出的图像中可能存在的噪声(即类别错误)的问题,本发明引入带噪声数据的学习方法DivideMix,以降低数据集中噪声带来的影响。用此方法训练图像分类模型,可以提升模型的训练效率,降低数据标注需求,成本低,同时还可以达到不错的模型效果。

主权项:1.基于CLIP快速构建图像分类模型的方法,其特征在于,包括以下步骤:S1、搜集图像;S2、使用CLIP模型筛选特定标签图像,得到带噪声的数据集;S3、采用CLIP模型对图片进行零样本分类制作数据集,具体做法为:对于特定的一张图片,计算其与所有类别描述的相似性,将其归为相似度最大的文本类别,将带噪声的数据集按8:2划分为训练集和测试集,对测试集中的图片进行人工核验,修正错误分类的图像;S4、使用DivideMix方法,用带噪声的数据集训练分类模型,DivideMix训练分类模型的流程分为以下步骤:S41、模型初始化:随机初始化两个相同的分类神经网络A模型、B模型;S42、预训练:A、B每个模型先正常训练对应的多个epoch,预训练阶段的损失函数为交叉熵损失加negativeentropy惩罚项,其作用是限制置信度过高的预测结果,避免模型对噪声数据的过拟合;S43、数据集划分:记录训练集中每个样本的分类loss,使用高斯混合模型建模,将loss分布分解为两个高斯分布的统计模型,一个为正确分类的分布,处于这个分布中心的样本loss较小;另外一个为错误分类的分布,处于这个分布中心的样本loss较大,选取分类loss较小的分布,使用阈值将样本分为两部分,大于设定阈值的保留原标签,剩下的设为无标签;S44、半监督训练:半监督训练采用DivideMix中改进的MixMatch半监督训练方法,A模型划分的数据集用于给到B模型进行半监督训练,B模型划分的数据集用于给到A模型进行半监督训练;具体实现方法主要包括以下步骤:A21、加载数据训练数据,对数据进行增强;一个batch加载等量的有标签和无标签的图像数据,标签转换为One-hot编码形式,有标签和无标签的图像样本均经过数据增强产生2张增强后的图像样本;A22、对有标签的数据的标签进行线性加权修正,对无标签的数据的标签进行猜测;其中,有标签数据线性加权修正标签的做法是:当对A模型进行半监督训练时,将带标签的样本的标签运用B模型的预测结果进行修正,假设B网络预测样本为正确分类的概率为,类别标签为,B模型的网络预测为,则修正的标签为: 训练时会将一个样本增强为2个样本,采用sharpening函数对一个样本对应的2个标签向量进行降温,得到该样本的标签,当训练B模型时也是如此,只是采用A模型作为辅助;无标签数据联合推测标签做法是:针对无标签样本和其数据增强后的2个样本,分别输入A模型和B模型,得到4个预测向量,对每个样本的2个两个预测结果取平均,并采用sharpening函数对这4个样本的预测向量进行降温,得到该样本的标签;A23、对数据增强后的数据进行MixUp;一个次数据加载n个有标签的样本和n个无标签的样本,经过数据增强会产生2n个有标签的样本,和2n个无标签的样本,将所有样本合成一个列表,前面2n个为有标签的样本,后面2n个为无标签的样本,列表中的每个样本与4n个样本中的随机一个做MixUp,产生4n个新的样本,无标签样本在MixUp时使用的是猜测的标签,MixUp时,令合并系数;A24、使用MixUp后的数据训练模型;训练模型时,模型损失函数分为三部分,前2n个以有标签为主的MixUp数据采用交叉熵损失,后2n个以猜测标签为主的MixUp数据采用均方差损失,另外加上正则项,避免模型的所有输出为同一类;S45、迭代:重复步骤S43、S44,训练多个epoch;S46、半监督模型推理,主要有两种方法:A、B双模型联合推理和单模型推理,A、B双模型联合推理的做法是:读取图片,图像预处理,A模型前向推理得到结果tensorA,B模型前向推理得到结果tensorB,将tensorA与tensorB相加,取概率最大的值对应的类别;单模型推理的做法是:选择A模型、B模型中在测试集上表现更好的模型作为最终的模型。

全文数据:

权利要求:

百度查询: 厦门瑞为信息技术有限公司 基于CLIP快速构建图像分类模型的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。