【发明授权】一种基于主动漂移检测的非平衡数据流挖掘方法_华南理工大学_202010239770.7

导航：龙图腾网> 最新专利技术> 一种基于主动漂移检测的非平衡数据流挖掘方法_华南理工大学_202010239770.7

申请/专利权人：华南理工大学

申请日：2020-03-30

公开（公告）日：2024-04-02

公开（公告）号：CN112000705B

主分类号：G06F16/2458

分类号：G06F16/2458;G06F16/2455

优先权：

专利状态码：有效-授权

法律状态：2024.04.02#授权;2020.12.15#实质审查的生效;2020.11.27#公开

摘要：针对数据流的概念漂移特性以及非平衡特性，本发明提出了一种基于主动漂移检测的非平衡数据流挖掘方法，包括以下三个步骤：（1）非平衡数据的处理，数据流中可能存在一些类别不平衡现象，需要对不平衡数据进行有效的处理。（2）主动概念漂移检测，需要实时检测出数据流中存在的概念漂移现象（3）漂移适应，当检测到概念漂移之后，需要对算法进行调整，使之能适应概念漂移。本发明的优点能有效的解决数据流中存在的非平衡现象，可以灵活的应对各种概念漂移场景，包括突然漂移，逐渐漂移，增量漂移以及循环漂移等等，能有效的检测出这些漂移场景并做出及时的响应，从而提高数据流信息挖掘的精度和效率。

主权项：1.一种基于主动漂移检测的非平衡数据流挖掘方法，其特征在于，包括以下步骤：S1、获取数据流S，将数据流S划分成大小相等的数据块B1,B2,...,Bn，以数据块为单位大小，对数据流中的非平衡数据进行处理；包括以下步骤：S1.1、对原始数据块进行采样操作，获得多数类数据与少数类数据；S1.2、根据步骤S1.1中获得的多数类数据与少数类数据，组合成多个平衡的数据子块；S1.3、根据步骤S1.2中获得的多个平衡的数据子块，组合成最终的平衡数据块；设定原始数据块中的多数类数据与少数类数据的比例为IR1，设定经过采样操作后多数类数据与少数类数据的比例为IR2，根据IR1与IR2的关系进行步骤S1.1所述的对原始数据块进行采样操作，具体如下：增加少数类数据的数据量和减少多数类数据的数据量，所述增加少数类数据的数据量使用SMOTE过采样方法，所述减少多数类数据的数据量是通过聚类的方法识别多数类数据当中的噪声点或边界点，然后将识别的噪声点以及边界点去除；S2、实时检测数据流中存在的概念漂移现象；通过数据流中的监督性信息以及非监督性信息来判断是否发生特征漂移，监督性信息包括分类错误率，非监督性信息包括样本均值和方差，设定步骤S1中划分的每个数据块中均包括di个数据点，则其中一个数据块Bi的样本均值Mi定义如下：其中Bi,j指的是第i个数据块中第j个数据点；给定di和Mi，则第i个数据块Bi中的样本方差Vi定义为：样本均值M和样本方差V用来表示数据流S内部的稳定情况，当数据流处于稳定状态下，M和V服从一个稳定的正态分布，基于数据块Bi内的样本，可以计算出Mi和Vi分别所对应的置信区间具体如下：其中α是t分布和χ分布卡方分布的置信度，用来计算M和V的置信区间；基于相邻两个数据块，计算其均值的区间重合度RM和方差的区间重合度RV，具体如下：区间重合度是相邻两个区间的交集与其并集之间的商，取值范围在[0,1]之间，将均值的区间重合度和方差的区间重合度结合，得到数据流的内部稳定衡量指标R： R代表当前数据流的内部稳定情况，如果R小于区间重合度阈值θ，则认为此时内部数据流不稳定，可能发生了特征漂移；所述特征漂移分为虚拟特征漂移和真实特征漂移两种情况，数据块Bi中的分类错误率Ei定义如下：其中，εj是数据块Bi中数据点的分类结果，yj代表数据点的分类结果，labelj代表数据点的真实结果，如果分类结果正确，则εj＝0，否则εj＝1；同样，可以计算出Ei的置信区间如下：其中，σ是计算E置信区间的一个区间参数，根据数据流漂移情况进行设置，漂移缓慢时设置σ为1，漂移迅速时设置为3，Mean指的是均值，Var指的是方差，基于相邻两个数据块，如果则认为此时发生了真实特征漂移，如果则认为此时只发生了虚假特征漂移；S3、当检测到概念漂移之后，对算法进行调整，使之能适应概念漂移。

全文数据：

权利要求：

百度查询：华南理工大学一种基于主动漂移检测的非平衡数据流挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

下一篇：摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

相关技术

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种钻井液生产粉尘收集装置_新乡市隆驰化学有限责任公司_202322388957.5

整形压块及焊接装置_宁德时代新能源科技股份有限公司_202321970130.9

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

非相关技术

非水电解质二次电池用负极和非水电解质二次电池_松下知识产权经营株式会社_201980077740.6

一种快速非笛卡尔磁共振智能成像方法_厦门大学_202311045660.7

一种非晶铁芯性能检测的自动化装置_浙江兆晶电气科技有限公司_201911010237.7

一种铁基非均相催化剂的制备与使用方法_天津科技大学_202210175036.8

一种特征初始化的非均匀校正方法及其系统_中国科学院长春光学精密机械与物理研究所_202210650466.0

小区切换方法、装置、电子设备及非易失性存储介质_中国电信股份有限公司_202210833812.9

一种用于治超非现场执法系统的多维称重平台_西安航天三沃机电设备有限责任公司_202322713424.X

一种非晶变压器侧压板结构_宿迁三科电气科技有限公司_202322497433.X

一种风力发电机组用非固态金属组合滑环结构_大连宜顺机电有限公司_202322530494.1

一种瑞戈非尼晶型I的制备方法_重庆药友制药有限责任公司_202211282997.5

平衡相关技术

用于砂轮动平衡检测的定心工装、砂轮动平衡测量工装_郑州海科研磨工具有限公司_202321905237.5

阀芯平衡氢气减压阀_山东汉鸿新材料科技有限公司_202321849377.5

盐雾试验箱加热除湿平衡装置_南京环科试验设备有限公司_202322670905.7

一种平衡重叉车用限重机构_安徽丰宇叉车有限公司_202322741826.0

一种平衡阀试验仪器_靖江市长源液压机械有限公司_202322606815.1

一种目标检测数据平衡方法及装置_武汉理工大学_202410024623.6

一种平衡车电机固定结构_浙江群英车业有限公司_202322772684.4

一种亮度平衡LED灯带_无锡百富照明电器有限公司_202322661420.1

用于调控口腔菌群平衡的多肽_好易康生物科技(广州)有限公司_202310002737.6

一种平衡重式电动叉车_安徽丰宇叉车有限公司_202322741829.4

数据流相关技术

用于对信道数据进行流处理以应用非线性波束形成的方法和系统_通用电气精准医疗有限责任公司_202011107897.X

一种流数据同步的方法、装置、计算机设备及存储介质_深圳平安智汇企业信息管理有限公司_202110728683.2

一种两相流双循环多模式数据中心机柜散热系统_杭州电子科技大学_202210562125.8

折流板、折流板对、密封垫及热交换器_上海板换机械设备有限公司_202322637383.0

混流器和家电设备_广东美的制冷设备有限公司_201810595014.0

多流路气体采样系统_陕西金泰氯碱神木化工有限公司_202322647855.0

一体式液滴微流控芯片结构及制备方法、微流控芯片组件_中国科学院苏州生物医学工程技术研究所_201910128095.8

一种换热器用折流结构_佛山禅能换热器有限公司_202322684776.7

一种浮装式混流泵_天津中蓝泵业有限责任公司_202322431346.4

一种大体积混凝土浇注用流槽_中化学南方运营管理有限公司_202322202459.7

龙图腾网&IPTOP

【发明授权】一种基于主动漂移检测的非平衡数据流挖掘方法_华南理工大学_202010239770.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务