买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】数据中台数据血缘图谱构建方法_山东再起数据科技有限公司_202410145210.3 

申请/专利权人:山东再起数据科技有限公司

申请日:2024-02-02

公开(公告)日:2024-04-26

公开(公告)号:CN117688110B

主分类号:G06F16/28

分类号:G06F16/28;G06F16/26;G06F16/25;G06F16/215;G06F16/2455

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明涉及数据分析技术领域,具体涉及数据中台数据血缘图谱构建方法,包括如下步骤:收集多源数据,对多源数据进行预处理,再利用数据融合技术进行整合;对整合过的数据分类和命名,形成数据的层次结构和数据链路;使用网络封包分析工具识别数据链路的源头和终点并记录数据链路的关键信息;根据数据链路的描述,基于邻接表建立数据血缘关系图并对血缘关系图进行标注;将数据血缘关系图可视化并建立实时数据追踪机制。本发明利用数据融合技术,将多源数据进行整合和优化,提高数据血缘关系图谱构建的全面性和准确性。基于邻接表建立数据血缘关系,能够高效地进行图的遍历,查找和分析,使得在处理大规模图时能够保持高效和快速。

主权项:1.数据中台数据血缘图谱构建方法,其特征在于,包括如下步骤:S1:收集多源数据,对多源数据进行预处理,再利用数据融合技术进行整合;S2:对整合过的数据分类和命名,形成数据的层次结构和数据链路;S3:使用网络封包分析工具识别数据链路的源头和终点并记录数据链路的关键信息;S4:根据数据链路的描述,基于邻接表建立数据血缘关系图并对血缘关系图进行标注;S5:将数据血缘关系图可视化并建立实时数据追踪机制;S1中,利用数据融合技术进行整合的具体步骤如下:S11:对预处理后的数据进行多样性判断;S12:对经多样性判断后的数据进行标准化处理;S13:计算标准化后数据的准特征矩阵;S14:对准特征矩阵进行特征分解,得到特征值;S15:对准特征矩阵进行正交投影,将原始数据投影到新的空间;利用数据融合技术进行整合的计算如下:多样性判断公式为: ; ; ; ;其中,d和k表示权重,X和Y是两种数据源,x和y分别是数据源X和数据源Y中的数据,为数据源X的多样性,为X和Y的互信息,为数据源X的左邻接熵,为数据源Y的左邻接熵,为x、y的联合分布,和分别是x和y的边缘分布;采用多样性阈值来判断多样性,若,经多样性判断后的数据进行标准化处理,计算公式为: ;其中,S是一个的矩阵,m是样本数量,n是特征数量,S是标准化后的矩阵,X是原始矩阵;为原始样本均值,为原始样本标准差;而若是,则采用另一种标准化方式来处理: ;其中,表示原始矩阵的中位数,表示原始矩阵四分位距;其中,=,=,其中,为矩阵的第一四分位数,为矩阵的第三四分位数;标准化后数据的准特征矩阵,计算公式为: ;其中,是一个的准特征矩阵,m是样本数量,n是特征数量,E为期望值,为S的均值向量,为特征为n的值,为样本为m的值;准特征矩阵中的对角元素值为: ;其中,是第i行第j列的元素,是特征j这组样本的均值,m是样本数量,n是特征数量,为对角线元素的值;准特征对角线上的特征值为: ; ;其中,为对角线上的均值,为准特征矩阵中的对角线特征值;每个元素的特征值为: ;其中,是第i行第j列的元素;邻接表的构建过程如下:S421:创建空的数组存储邻接表;S422:从数据中提取邻接信息,确定每个节点的入度数量;S423:将每个节点的入度信息添加到其对应的邻接列表中;S424:再遍历数据链路中的所有节点,将所有节点入度的路径长度存储在邻接表中;S425:从邻接列表中提取出邻接表。

全文数据:

权利要求:

百度查询: 山东再起数据科技有限公司 数据中台数据血缘图谱构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。