买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于智慧数据平台脏数据清理方法_重庆邮电大学_202111330590.0 

申请/专利权人:重庆邮电大学

申请日:2021-11-11

公开(公告)日:2024-04-12

公开(公告)号:CN113988817B

主分类号:G06Q10/10

分类号:G06Q10/10;G06Q50/26;G06F16/215;G06V10/762;G06V10/764;G06N3/006

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2022.02.18#实质审查的生效;2022.01.28#公开

摘要:本发明属于脏数据检测与清理领域,涉及一种基于智慧数据平台脏数据清理方法,包括;本发明对原始数据进行检测,并对原始数据进行规范化;将规范化的原始数据进行Hashing处理,得到数据对应的hash数据;使用聚类分析选择hash数据中的最优质心,原始数据中包括已聚类数据、原始分割数据;使用恒等判定公式将已聚类数据与原始分割数据的交集进行恒等判定,寻找出缺失的或不需要的脏数据;对找出的脏数据基于Rider‑Firefly混合算法进行清理;本发明提出的算法在脏数据和干净数据之间的区分能力相对于传统算法具有强鲁棒性。

主权项:1.一种基于智慧数据平台脏数据清理方法,其特征在于,包括以下步骤:通过标签对原始数据进行分割,得到原始分割数据;对原始数据的处理包括:根据原始数据属性的最大限制、最小限制以及设置的分割级数,计算一个调平阈值;调平阈值表示为: 其中,为调平后的数据;NV表示数据的级别数,为固定的最大限制,为固定的最小限制;根据调平阈值对数据进行分割,即将数据分割为设置的分割级数个等级;根据调平阈值对数据进行分割包括以下步骤: 其中,为数据的属性;为数据属性的调平阈值;为数据的级别;等得到的原始分割数据每个级别根据其属性数据生成码本,每个级别分别执行Huffman编码,将生成的每个数据定义为所提出Rider-Firefly混合算法的输入;执行Huffman编码过程包括:S221:为每个单独的数据生成一个叶子节点,并为整个叶子节点构建最小堆;S222:以最小权值从最小堆中导出两个节点;S223:生成一个新的节点,其权值等于两个节点权值相加,权值较小的初始节点作为左孩子,权值较大的节点作为右孩子,并将该新的节点添加到最小堆中;S224:重复步骤S222和步骤S223,直到堆达到最小节点为1;根节点是最后一个节点,到达最后一个根节点后,完成树的构建;对原始数据进行检测,并对原始数据进行规范化;将规范化的原始数据进行Hashing处理,得到数据对应的hash数据;对hash数据进行聚类分析得到已聚类数据;此时的得到的数据中包括已聚类数据、原始分割数据,使用恒等判定公式将已聚类数据与原始分割数据的交集进行恒等判定,寻找出缺失的或不需要的脏数据;对找出的脏数据基于Rider-Firefly混合算法进行清理,具体包括Rider算法模型中用萤火虫位置更新方程替换绕道骑手的位置更新方程,随后进行了绕道骑手、超车者和攻击者的整个更新过程,通过计算每位骑手的位置确定骑手成为领头者的成功率,对每个集群进行排序,排序后将成功率相邻的集群进行比较,将两个集群成功率之差小于设置阈值的集群合并,且将每个集群中数据与质心之间距离大于设置阈值的数据删除;计算每位骑手的位置确定骑手的成功率的过程包括以下步骤:绕道骑手位置更新公式为: 跟随者位置更新公式为: 超车者位置更新公式为: 攻击者位置更新公式为: 其中,表示第l个坐标处的第i位骑手的转向角,表示第i位骑手与目标位置的距离;Hti表示时间t内第i位骑手的方向指示器;表示第t+1时刻跟随者的位置;RQQ,l为骑手在l坐标的速度,MQQ,l表示领头者的坐标;Mti,l为t时刻第i位骑手的位置;Q表示领头者,l表示骑手的坐标;α是[0,1]之间的随机数,εp是服从均匀分布的随机因子;γ为光吸收系数常数;第p个数据在t时的位置;为第q个数据在t时的位置;β0为k=0两数据距离为0时两者的吸引力,k为数据之间的距离。

全文数据:

权利要求:

百度查询: 重庆邮电大学 一种基于智慧数据平台脏数据清理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术