买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】面向数据中台的缺失数据填充方法_齐鲁工业大学(山东省科学院);黑龙江大学;山东省人工智能研究院_202310201678.5 

申请/专利权人:齐鲁工业大学(山东省科学院);黑龙江大学;山东省人工智能研究院

申请日:2023-03-03

公开(公告)日:2024-04-02

公开(公告)号:CN116578557B

主分类号:G06F16/22

分类号:G06F16/22;G06F16/242;G06F16/28

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2023.08.29#实质审查的生效;2023.08.11#公开

摘要:一种面向数据中台的缺失数据填充方法,属于工业大数据技术领域,可以利用多数据源对目标数据集中的缺失数据进行有效的填充。有效填充了原数据集中的缺失数据,提升了原数据集的完整性。相对于传统的Flight数据集及合成数据集,该面向数据中台的缺失数据填充方法运行时间并不随着数据规模增大而增大,而是保持平稳。当数据源数量达到10000时,本算法效率是精确算法的80倍。

主权项:1.一种面向数据中台的缺失数据填充方法,其特征在于,包括如下步骤:a从数据中台内的工业大数据中获取数据建立一个关系模式为R的目标数据集DA1,A2,...,Ai,...,Am=t1,t2,...,tj,...,t|D|,其中Ai为第i个属性,i∈{1,2,...,m},m为获取的工业大数据中的属性个数,tj为第j个元组,j∈{1,2,...,|D|},|D|为获取的工业大数据中的元组个数,目标数据集DA1,A2,...,Ai,...,Am=t1,t2,...,tj,...,t|D|满足的函数依赖集合为Z={r1,r2,...,rj,...,r|Z|},其中rj为第j条函数依赖规则,j∈{1,2,...,|Z|},|Z|为函数依赖集合的大小;b第j条函数依赖规则rj的形式定义为LHSrj→RHSrj,其中LHSrj为函数依赖规则rj的前件,RHSrj为函数依赖规则rj的后件,LHSrj为属性列表,LHSrj=Aj1,Aj2,...,Ajo,...,Ajs,Ajo为关系模式R上的第j个属性,jo∈{1,2,...,m},o∈{1,2,...,s},s为前件中属性的个数,RHSrj=Ajs+1,Ajs+1为关系模式R上的第js+1个属性,js+1∈{1,2,...,m};c从数据中台内的工业大数据中获取数据建立一个数据源集合SS={S1,S2,...,Si,...,S|SS|},其中Si为第i个数据源,i∈{1,2,...,|SS|},|SS|为数据源的数量,第i个数据源Si的关系模式为Ri,第i个数据源Si的函数依赖集合为Zi,其中为函数依赖集合Zi的第j条函数依赖规则,j∈{1,2,...,|Zi|},|Zi|为函数依赖集合的大小;d设置子函数一,利用子函数一将目标数据集DA1,A2,...,Ai,...,Am=t1,t2,...,tj,...,t|D|构建其在函数依赖集合Z={r1,r2,...,rj,...,r|Z|}中第j条函数依赖规则rj对应的草图ScratchDj;e利用子函数一将数据源集合SS={S1,S2,...,Si,...,S|SS|}中的第i个数据源Si构建其在函数依赖集合Zi中第j条函数依赖规则rj对应的草图Scratchi,j;f遍历目标数据集DA1,A2,...,Ai,...,Am=t1,t2,...,tj,…,t|D|中的每一条元组的每一个属性值,第i个元组ti的属性值为ti[Ap],i∈{1,2,...,|D|},p∈{1,2,...,m},如果属性值ti[Ap]不为空,则继续遍历,如果属性值ti[Ap]为空,则设置子函数二,利用子函数二对属性值ti[Ap]寻找函数依赖集合Z={r1,r2,…,rj,…,r|Z|}中可以用于填充的函数依赖规则;g如果函数依赖集合Z={r1,r2,...,rj,…,r|Z|}不存在可以用于填充属性值ti[Ap]的函数依赖规则,则返回执行步骤f,直到目标数据集DA1,A2,…,Ai,...,Am=t1,t2,...,tj,...,t|D|所有元组的所有属性值均遍历完成,如果函数依赖集合Z={r1,r2,...,rj,...,r|Z|}存在可以用于填充属性值ti[Ap]的函数依赖规则rj,则访问一个包含函数依赖规则rj的第i个数据源Si的草图Scratchi,j,设置子函数三,利用子函数三根据草图Scratchi,j判断草图Scratchi,j是否可以用于属性值ti[Ap]的填充;步骤d包括如下步骤:d-1初始化草图ScratchDj为一个长度为L位的位数组;d-2定义k个独立的哈希函数h1-hk,将任意整数映射到1-L;d-3将草图ScratchDj的所有位初始化为0后遍历目标数据集DA1,A2,...,Ai,...,Am=t1,t2,…,tj,…,t|D|中的每条元组,将第j个元组tj在属性列表LHSrj上的值t[LHSrj]哈希为一个正整数x;d-4计算出正整数x在哈希函数h1-hk上的哈希值,得到h1x,h2x,...,hix,...,hkx,hix为正整数x在第i个哈希函数hi上的哈希值,i∈{1,2,...,k};d-5将草图ScratchDj中k个位置h1x,h2x,...,hix,…,hkx置1;d-6遍历目标数据集DA1,A2,…,Ai,…,Am=t1,t2,...,tj,...,t|D|中的每条元组后,得到构建完毕的草图ScratchDj。

全文数据:

权利要求:

百度查询: 齐鲁工业大学(山东省科学院);黑龙江大学;山东省人工智能研究院 面向数据中台的缺失数据填充方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。