【发明授权】面向数据中台的缺失数据填充方法_齐鲁工业大学(山东省科学院);黑龙江大学;山东省人工智能研究院_202310201678.5

申请/专利权人：齐鲁工业大学(山东省科学院);黑龙江大学;山东省人工智能研究院

申请日：2023-03-03

公开（公告）日：2024-04-02

公开（公告）号：CN116578557B

主分类号：G06F16/22

分类号：G06F16/22;G06F16/242;G06F16/28

优先权：

专利状态码：有效-授权

法律状态：2024.04.02#授权;2023.08.29#实质审查的生效;2023.08.11#公开

摘要：一种面向数据中台的缺失数据填充方法，属于工业大数据技术领域，可以利用多数据源对目标数据集中的缺失数据进行有效的填充。有效填充了原数据集中的缺失数据，提升了原数据集的完整性。相对于传统的Flight数据集及合成数据集，该面向数据中台的缺失数据填充方法运行时间并不随着数据规模增大而增大，而是保持平稳。当数据源数量达到10000时，本算法效率是精确算法的80倍。

主权项：1.一种面向数据中台的缺失数据填充方法，其特征在于，包括如下步骤：a从数据中台内的工业大数据中获取数据建立一个关系模式为R的目标数据集DA1,A2,...,Ai,...,Am＝t1,t2,...,tj,...,t|D|，其中Ai为第i个属性，i∈{1,2,...,m}，m为获取的工业大数据中的属性个数，tj为第j个元组，j∈{1,2,...,|D|}，|D|为获取的工业大数据中的元组个数，目标数据集DA1,A2,...,Ai,...,Am＝t1,t2,...,tj,...,t|D|满足的函数依赖集合为Z＝{r1,r2,...,rj,...,r|Z|}，其中rj为第j条函数依赖规则，j∈{1,2,...,|Z|}，|Z|为函数依赖集合的大小；b第j条函数依赖规则rj的形式定义为LHSrj→RHSrj，其中LHSrj为函数依赖规则rj的前件，RHSrj为函数依赖规则rj的后件，LHSrj为属性列表，LHSrj＝Aj1,Aj2,...,Ajo,...,Ajs，Ajo为关系模式R上的第j个属性，jo∈{1,2,...,m}，o∈{1,2,...,s}，s为前件中属性的个数，RHSrj＝Ajs+1，Ajs+1为关系模式R上的第js+1个属性，js+1∈{1,2,...,m}；c从数据中台内的工业大数据中获取数据建立一个数据源集合SS＝{S1,S2,...,Si,...,S|SS|}，其中Si为第i个数据源，i∈{1,2,...,|SS|}，|SS|为数据源的数量，第i个数据源Si的关系模式为Ri，第i个数据源Si的函数依赖集合为Zi，其中为函数依赖集合Zi的第j条函数依赖规则，j∈{1,2,...,|Zi|}，|Zi|为函数依赖集合的大小；d设置子函数一，利用子函数一将目标数据集DA1,A2,...,Ai,...,Am＝t1,t2,...,tj,...,t|D|构建其在函数依赖集合Z＝{r1,r2,...,rj,...,r|Z|}中第j条函数依赖规则rj对应的草图ScratchDj；e利用子函数一将数据源集合SS＝{S1,S2,...,Si,...,S|SS|}中的第i个数据源Si构建其在函数依赖集合Zi中第j条函数依赖规则rj对应的草图Scratchi,j；f遍历目标数据集DA1,A2,...,Ai,...,Am＝t1,t2,...,tj,…,t|D|中的每一条元组的每一个属性值，第i个元组ti的属性值为ti[Ap]，i∈{1,2,...,|D|}，p∈{1,2,...,m}，如果属性值ti[Ap]不为空，则继续遍历，如果属性值ti[Ap]为空，则设置子函数二，利用子函数二对属性值ti[Ap]寻找函数依赖集合Z＝{r1,r2,…,rj,…,r|Z|}中可以用于填充的函数依赖规则；g如果函数依赖集合Z＝{r1,r2,...,rj,…,r|Z|}不存在可以用于填充属性值ti[Ap]的函数依赖规则，则返回执行步骤f，直到目标数据集DA1,A2,…,Ai,...,Am＝t1,t2,...,tj,...,t|D|所有元组的所有属性值均遍历完成，如果函数依赖集合Z＝{r1,r2,...,rj,...,r|Z|}存在可以用于填充属性值ti[Ap]的函数依赖规则rj，则访问一个包含函数依赖规则rj的第i个数据源Si的草图Scratchi,j，设置子函数三，利用子函数三根据草图Scratchi,j判断草图Scratchi,j是否可以用于属性值ti[Ap]的填充；步骤d包括如下步骤：d-1初始化草图ScratchDj为一个长度为L位的位数组；d-2定义k个独立的哈希函数h1-hk，将任意整数映射到1-L；d-3将草图ScratchDj的所有位初始化为0后遍历目标数据集DA1,A2,...,Ai,...,Am＝t1,t2,…,tj,…,t|D|中的每条元组，将第j个元组tj在属性列表LHSrj上的值t[LHSrj]哈希为一个正整数x；d-4计算出正整数x在哈希函数h1-hk上的哈希值，得到h1x,h2x,...,hix,...,hkx，hix为正整数x在第i个哈希函数hi上的哈希值，i∈{1,2,...,k}；d-5将草图ScratchDj中k个位置h1x,h2x,...,hix,…,hkx置1；d-6遍历目标数据集DA1,A2,…,Ai,…,Am＝t1,t2,...,tj,...,t|D|中的每条元组后，得到构建完毕的草图ScratchDj。

全文数据：

权利要求：

百度查询：齐鲁工业大学(山东省科学院);黑龙江大学;山东省人工智能研究院面向数据中台的缺失数据填充方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

下一篇：管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

相关技术

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种具有安全防护的桥梁施工操作台_博信达建设集团有限公司_202322675828.4

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种英语听力训练用耳机_大同师范高等专科学校_202322527447.1

一种园林绿化便携铲_马丽丽_202322375183.2

数据相关技术

管理IOT网络中的数据和数据使用_勤达睿公司_202080032483.7

多接入数据连接上的数据分组引导_联想(新加坡)私人有限公司_201880092121.X

数据存储方法及装置_恒生电子股份有限公司_202311433168.7

数据标注方法及装置_深圳市优必选科技股份有限公司_202010604308.2

数据存储方法、数据读取方法、电子设备和存储介质_北京壁仞科技开发有限公司_202410218124.0

产品全生命周期评价的数据收集方法及数据收集系统_北京中创绿发科技有限责任公司_202110549695.9

融合试题数据和解答数据的多知识点标注方法和系统_华中师范大学_202011282980.0

一种数据关系捕获及大数据关系树构建方法_中通服创立信息科技有限责任公司_202111142241.6

高并发性数据迁移方法及数据安全存储装置_北京中领启天信息科技有限公司_202311552020.5

用于深度学习的数据感知存储分层和生命周期数据估值_慧与发展有限责任合伙企业_202310766514.7

中相关技术

具有净空间的中底_云上股份有限公司_202180009985.2

管理IOT网络中的数据和数据使用_勤达睿公司_202080032483.7

运动的对象流中的对象的检测_西克股份公司_202311366013.6

一种多级中水回用设备_苏州同科工程咨询有限公司_202322600059.1

ONO工艺中的HTO氧化层工艺方法_上海华虹宏力半导体制造有限公司_202110719394.6

动态消息处理和消息传递中的数据聚合_利维帕尔森有限公司_202080024885.2

一种中框离子清洁装置_厦门微亚智能科技股份有限公司_202322462096.0

一种中水回用装置_安徽德风膜环境技术有限公司_202322425486.0

电镀装置中的电流密度的控制_朗姆研究公司_202010770564.9

LTE/NR共存中的CSI参考信令_瑞典爱立信有限公司_201880094231.X

缺失相关技术

车道线异常缺失补偿方法、装置、设备及计算机存储介质_浙江零跑科技股份有限公司_202311862794.8

一种无人机动力缺失的应急设备_中飞艾维航空科技(苏州)有限公司_202410295185.7

一种检测IKZF基因缺失的方法及装置和应用_天津金域医学检验实验室有限公司_202410303119.X

医疗时序数据缺失值自动填充方法及装置_清华大学_202410052499.4

STAT2基因缺失细胞株及其制备方法和应用_北京镁伽科技有限公司_202111585927.2

一种y染色体缺失检测引物组及其应用_无锡市妇幼保健院_202311683437.5

一种针对TODO注释缺失方法的自动检测与修复方法_上海浙江大学高等研究院_202410093343.0

一种鲁棒于电极偏移与信号缺失的肌电模式识别方法_中国科学技术大学_202410068852.8

无创产前筛查微缺失或微重复配对参考品及其制备和应用_菁良科技(深圳)有限公司_202110903134.4

一种检测人类EGFR 19号外显子基因缺失突变的引物探针组合、试剂盒及方法_杭州联川生物技术股份有限公司_202410091216.7

龙图腾网&IPTOP

【发明授权】面向数据中台的缺失数据填充方法_齐鲁工业大学(山东省科学院);黑龙江大学;山东省人工智能研究院_202310201678.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务