【发明授权】一种基于智慧数据平台脏数据清理方法_重庆邮电大学_202111330590.0

导航：龙图腾网> 最新专利技术> 一种基于智慧数据平台脏数据清理方法_重庆邮电大学_202111330590.0

申请/专利权人：重庆邮电大学

申请日：2021-11-11

公开（公告）日：2024-04-12

公开（公告）号：CN113988817B

主分类号：G06Q10/10

分类号：G06Q10/10;G06Q50/26;G06F16/215;G06V10/762;G06V10/764;G06N3/006

优先权：

专利状态码：有效-授权

法律状态：2024.04.12#授权;2022.02.18#实质审查的生效;2022.01.28#公开

摘要：本发明属于脏数据检测与清理领域，涉及一种基于智慧数据平台脏数据清理方法，包括；本发明对原始数据进行检测，并对原始数据进行规范化；将规范化的原始数据进行Hashing处理，得到数据对应的hash数据；使用聚类分析选择hash数据中的最优质心，原始数据中包括已聚类数据、原始分割数据；使用恒等判定公式将已聚类数据与原始分割数据的交集进行恒等判定，寻找出缺失的或不需要的脏数据；对找出的脏数据基于Rider‑Firefly混合算法进行清理；本发明提出的算法在脏数据和干净数据之间的区分能力相对于传统算法具有强鲁棒性。

主权项：1.一种基于智慧数据平台脏数据清理方法，其特征在于，包括以下步骤：通过标签对原始数据进行分割，得到原始分割数据；对原始数据的处理包括：根据原始数据属性的最大限制、最小限制以及设置的分割级数，计算一个调平阈值；调平阈值表示为：其中，为调平后的数据；NV表示数据的级别数，为固定的最大限制，为固定的最小限制；根据调平阈值对数据进行分割，即将数据分割为设置的分割级数个等级；根据调平阈值对数据进行分割包括以下步骤：其中，为数据的属性；为数据属性的调平阈值；为数据的级别；等得到的原始分割数据每个级别根据其属性数据生成码本，每个级别分别执行Huffman编码，将生成的每个数据定义为所提出Rider-Firefly混合算法的输入；执行Huffman编码过程包括：S221：为每个单独的数据生成一个叶子节点，并为整个叶子节点构建最小堆；S222：以最小权值从最小堆中导出两个节点；S223：生成一个新的节点，其权值等于两个节点权值相加，权值较小的初始节点作为左孩子，权值较大的节点作为右孩子，并将该新的节点添加到最小堆中；S224：重复步骤S222和步骤S223，直到堆达到最小节点为1；根节点是最后一个节点，到达最后一个根节点后，完成树的构建；对原始数据进行检测，并对原始数据进行规范化；将规范化的原始数据进行Hashing处理，得到数据对应的hash数据；对hash数据进行聚类分析得到已聚类数据；此时的得到的数据中包括已聚类数据、原始分割数据，使用恒等判定公式将已聚类数据与原始分割数据的交集进行恒等判定，寻找出缺失的或不需要的脏数据；对找出的脏数据基于Rider-Firefly混合算法进行清理，具体包括Rider算法模型中用萤火虫位置更新方程替换绕道骑手的位置更新方程，随后进行了绕道骑手、超车者和攻击者的整个更新过程，通过计算每位骑手的位置确定骑手成为领头者的成功率，对每个集群进行排序，排序后将成功率相邻的集群进行比较，将两个集群成功率之差小于设置阈值的集群合并，且将每个集群中数据与质心之间距离大于设置阈值的数据删除；计算每位骑手的位置确定骑手的成功率的过程包括以下步骤：绕道骑手位置更新公式为：跟随者位置更新公式为：超车者位置更新公式为：攻击者位置更新公式为：其中，表示第l个坐标处的第i位骑手的转向角，表示第i位骑手与目标位置的距离；Hti表示时间t内第i位骑手的方向指示器；表示第t+1时刻跟随者的位置；RQQ,l为骑手在l坐标的速度，MQQ,l表示领头者的坐标；Mti,l为t时刻第i位骑手的位置；Q表示领头者，l表示骑手的坐标；α是[0,1]之间的随机数，εp是服从均匀分布的随机因子；γ为光吸收系数常数；第p个数据在t时的位置；为第q个数据在t时的位置；β0为k＝0两数据距离为0时两者的吸引力，k为数据之间的距离。

全文数据：

权利要求：

百度查询：重庆邮电大学一种基于智慧数据平台脏数据清理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：心理辅导用的环境照明灯光_西安鼎力信息技术有限责任公司_202211332585.8

下一篇：信息处理方法、装置、电子设备及存储介质_马上消费金融股份有限公司_202211335487.X

相关技术

心理辅导用的环境照明灯光_西安鼎力信息技术有限责任公司_202211332585.8

信息处理方法、装置、电子设备及存储介质_马上消费金融股份有限公司_202211335487.X

数据储存装置与写入缓存器管理方法_慧荣科技股份有限公司_202211437472.4

一种自带浮力的短裤式游泳纸尿裤_浙江夕尔科技有限公司_202211346905.5

一种管理消息分区的方法及装置_三六零数字安全科技集团有限公司_202211353371.9

显示面板及其制备方法、显示装置_深圳市华星光电半导体显示技术有限公司_202410042140.9

配线基板_矢崎总业株式会社_202311285451.X

用于装配式面层支护设计的模拟设备及其模拟方法_中建八局广西建设有限公司_202311679130.8

一种水龙头快速安装底座_崔樑明_202310464249.7

针对SAR ADC的分裂电容模组及相应的开关方法_深圳大学_202311804036.0

图像传感器、图像传感方法、电子设备_华为技术有限公司_202211705564.6

相机拍照防抖方法，装置，电子设备及介质_北京小米移动软件有限公司_202211339791.1

相关技术

相关技术

相关技术

龙图腾网&IPTOP

【发明授权】一种基于智慧数据平台脏数据清理方法_重庆邮电大学_202111330590.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务