买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】数据中台的低价值数据主题识别方法_国能(北京)商务网络有限公司_202311474333.3 

申请/专利权人:国能(北京)商务网络有限公司

申请日:2023-11-08

公开(公告)日:2024-02-06

公开(公告)号:CN117194907B

主分类号:G06F18/15

分类号:G06F18/15;G06F18/20

优先权:

专利状态码:有效-授权

法律状态:2024.02.06#授权;2023.12.26#实质审查的生效;2023.12.08#公开

摘要:本发明涉及数据处理技术领域,具体为数据中台的低价值数据主题识别方法,包括根据所有数据主题的读写访问记录,基于预设格式获取包括各数据主题中所有主题子表的清单数据列表;基于所有数据主题的读写访问记录获取各数据主题的平衡指数和更迭指数,再基于数据主题中的各主题子表信息获取主题子表的陈旧指数和演化指数;再基于所述陈旧指数、平衡指数、演化指数以及更迭指数获取数据主题的存储健康值;该方法对数据主题价值的判断采用了基于读写访问记录这类使用痕迹的评估方法,即以数据的实际使用情况为基准进行价值评估,进而准确划分出数据中台中的低价值数据主题。

主权项:1.数据中台的低价值数据主题识别方法,其特征在于,包括:根据所有数据主题的读写访问记录,基于预设格式获取包括各数据主题中所有主题子表的清单数据列表;基于首次访问日期、当前最近访问日期以及当前日期确定主题子表的陈旧指数;如下式: 其中,tSAT为首次访问日期,tNAT为当前最近访问日期,tNOW为当前日期,NOB为访问数据字节数,NOL为访问数据行数;当tNAT与tNOW取值相同时,tNOW-tNAT取预设差值;基于所有主题子表的访问数据平均行数、访问数据平均字节数、各主题子表的访问数据行数、访问数据字节数以及主题子表数获取数据主题的平衡指数;如下式: 其中,NT为数据主题下所有主题子表的数量,NOBm为该数据主题下所有主题子表的访问数据平均字节数,NOLm为该数据主题下所有主题子表的访问数据平均行数,NOBi为NT个主题子表中的第i个主题子表的访问数据字节数,NOLi为NT个主题子表中的第i个主题子表的访问数据行数;基于主题子表首次生成的字段数、字段数变化以及每次字段数变化保持的时间获取主题子表的演化指数;如下式: 其中,Finit、Fmdf、Fdel、Fadd分别表示在tSAT到tNOW的时间区间里,主题子表首次生成字段数、修改字段数、删除字段数、增加字段数,DM为主题子表每次修改、删除或增加后保持不变的天数,n为修改、删除和增加的总次数中的第n次;Fmdf+Fdel+Fadd表示修改、删除、增加处理的字段数之和;基于字段数变化以及主题子表数获取数据主题的更迭指数;如下式: 其中,Fmdfi、Fdeli、Faddi分别为第i个主题子表的修改字段数、删除字段数、增加字段数;再基于所述陈旧指数、平衡指数、演化指数以及更迭指数获取数据主题的存储健康值;如下式: 其中,OImax表示数据主题中最大的主题子表陈旧指数,OImin表示数据主题中最小的主题子表陈旧指数;将存储健康值与更迭指数均小于对应预设值的数据主题作为低价值数据主题。

全文数据:

权利要求:

百度查询: 国能(北京)商务网络有限公司 数据中台的低价值数据主题识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。