买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种兼具不确定性和代表性的主动学习框架_中国矿业大学_202410018254.X 

申请/专利权人:中国矿业大学

申请日:2024-01-05

公开(公告)日:2024-04-09

公开(公告)号:CN117852617A

主分类号:G06N3/091

分类号:G06N3/091;G06N3/0455;G06N3/0895;G06N3/0499;G06V10/762;G06V10/74;G06V10/764;G06V10/82

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.26#实质审查的生效;2024.04.09#公开

摘要:本发明公开了一种兼具不确定性和代表性的主动学习框架,先通过设置基于对比学习的自监督前置任务学习器对整个数据池的样本进行排序分批处理,然后对分批后的样本在实例级和簇级双重框架下进行对比聚类,然后基于K近邻算法计算所有样本的异常值得分,并对所有簇中的离群样本进行采样。本发明能够更好地对未标记数据进行分类,实现在实例级和簇级双重对比框架下的聚类,具有更优秀的效果,在第一轮迭代中就表现出强大的优势,能够解决主动学习的冷启动问题。

主权项:1.一种兼具不确定性和代表性的主动学习框架,其特征在于:包括如下步骤:S1、使用对比学习的自监督前置任务学习器Fp对未标记数据池Du中的N个样本{Xi}进行随机增强,得到N个样本对Xi表示未标记数据池Du中的第i个样本,和表示对样本Xi进行随机增强得到的两个样本;S2、将样本和分别输入到特征提取编码器f·,得到特征向量和S3、将特征向量和分别输入到多层感知器MLP,得到感知向量和S4、使用对比损失函数InfoNCE计算的对比损失li,先根据对比损失的大小对未标记数据池Du中的N个样本进行倒序排列,然后按顺序将N个样本按数量分成M组,每个分组包含Q个样本,第m个分组中的样本表示为j=1,2,…,Q,ceil·表示向上取整函数,表示第m个分组中的第j个样本;S5、使用对比聚类的离群样本采样器对进行数据增强,第m个分组得到Q个样本对和表示对样本进行数据增强得到的两个样本;S6、将和分别输入到特征提取编码器f·,得到特征向量和S7、将特征向量和分别输入到多层感知器MLP,得到感知向量和S8、对第m个分组中的Q个样本对的进行对比聚类,分别使用实例级对比头和簇级对比头进行对比聚类,实现在实例级和簇级双重框架下的对比聚类,计算实例级对比损失和簇级对比损失;S9、对实例级对比损失和簇级对比损失进行求和得到整体损失;S10、对于使用簇级对比头进行对比聚类得到的簇,使用K近邻算法计算簇内各个样本到簇中心的欧式距离,筛选出每个簇的离群样本,并计算各离群样本的异常值分数;S11、根据异常值分数对每个簇筛选出的所有离群样本进行倒序排序,将每个簇中异常值分数最低的K个离群样本标记为兼具不确定性和代表性的目标样本。

全文数据:

权利要求:

百度查询: 中国矿业大学 一种兼具不确定性和代表性的主动学习框架

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。