买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于主动漂移检测的非平衡数据流挖掘方法_华南理工大学_202010239770.7 

申请/专利权人:华南理工大学

申请日:2020-03-30

公开(公告)日:2024-04-02

公开(公告)号:CN112000705B

主分类号:G06F16/2458

分类号:G06F16/2458;G06F16/2455

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2020.12.15#实质审查的生效;2020.11.27#公开

摘要:针对数据流的概念漂移特性以及非平衡特性,本发明提出了一种基于主动漂移检测的非平衡数据流挖掘方法,包括以下三个步骤:(1)非平衡数据的处理,数据流中可能存在一些类别不平衡现象,需要对不平衡数据进行有效的处理。(2)主动概念漂移检测,需要实时检测出数据流中存在的概念漂移现象(3)漂移适应,当检测到概念漂移之后,需要对算法进行调整,使之能适应概念漂移。本发明的优点能有效的解决数据流中存在的非平衡现象,可以灵活的应对各种概念漂移场景,包括突然漂移,逐渐漂移,增量漂移以及循环漂移等等,能有效的检测出这些漂移场景并做出及时的响应,从而提高数据流信息挖掘的精度和效率。

主权项:1.一种基于主动漂移检测的非平衡数据流挖掘方法,其特征在于,包括以下步骤:S1、获取数据流S,将数据流S划分成大小相等的数据块B1,B2,...,Bn,以数据块为单位大小,对数据流中的非平衡数据进行处理;包括以下步骤:S1.1、对原始数据块进行采样操作,获得多数类数据与少数类数据;S1.2、根据步骤S1.1中获得的多数类数据与少数类数据,组合成多个平衡的数据子块;S1.3、根据步骤S1.2中获得的多个平衡的数据子块,组合成最终的平衡数据块;设定原始数据块中的多数类数据与少数类数据的比例为IR1,设定经过采样操作后多数类数据与少数类数据的比例为IR2,根据IR1与IR2的关系进行步骤S1.1所述的对原始数据块进行采样操作,具体如下:增加少数类数据的数据量和减少多数类数据的数据量,所述增加少数类数据的数据量使用SMOTE过采样方法,所述减少多数类数据的数据量是通过聚类的方法识别多数类数据当中的噪声点或边界点,然后将识别的噪声点以及边界点去除;S2、实时检测数据流中存在的概念漂移现象;通过数据流中的监督性信息以及非监督性信息来判断是否发生特征漂移,监督性信息包括分类错误率,非监督性信息包括样本均值和方差,设定步骤S1中划分的每个数据块中均包括di个数据点,则其中一个数据块Bi的样本均值Mi定义如下: 其中Bi,j指的是第i个数据块中第j个数据点;给定di和Mi,则第i个数据块Bi中的样本方差Vi定义为: 样本均值M和样本方差V用来表示数据流S内部的稳定情况,当数据流处于稳定状态下,M和V服从一个稳定的正态分布,基于数据块Bi内的样本,可以计算出Mi和Vi分别所对应的置信区间具体如下: 其中α是t分布和χ分布卡方分布的置信度,用来计算M和V的置信区间;基于相邻两个数据块,计算其均值的区间重合度RM和方差的区间重合度RV,具体如下: 区间重合度是相邻两个区间的交集与其并集之间的商,取值范围在[0,1]之间,将均值的区间重合度和方差的区间重合度结合,得到数据流的内部稳定衡量指标R: R代表当前数据流的内部稳定情况,如果R小于区间重合度阈值θ,则认为此时内部数据流不稳定,可能发生了特征漂移;所述特征漂移分为虚拟特征漂移和真实特征漂移两种情况,数据块Bi中的分类错误率Ei定义如下: 其中,εj是数据块Bi中数据点的分类结果,yj代表数据点的分类结果,labelj代表数据点的真实结果,如果分类结果正确,则εj=0,否则εj=1;同样,可以计算出Ei的置信区间如下: 其中,σ是计算E置信区间的一个区间参数,根据数据流漂移情况进行设置,漂移缓慢时设置σ为1,漂移迅速时设置为3,Mean指的是均值,Var指的是方差,基于相邻两个数据块,如果则认为此时发生了真实特征漂移,如果则认为此时只发生了虚假特征漂移;S3、当检测到概念漂移之后,对算法进行调整,使之能适应概念漂移。

全文数据:

权利要求:

百度查询: 华南理工大学 一种基于主动漂移检测的非平衡数据流挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。