买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种数据仓库建模和抽取方法及系统_北京梦诚科技有限公司_202210237026.2 

申请/专利权人:北京梦诚科技有限公司

申请日:2022-03-11

公开(公告)日:2022-09-20

公开(公告)号:CN114595294B

主分类号:G06F16/28

分类号:G06F16/28;G06F16/25;G06F16/242

优先权:

专利状态码:有效-授权

法律状态:2022.09.20#授权;2022.06.24#实质审查的生效;2022.06.07#公开

摘要:本发明提出一种数据仓库建模和抽取方法及系统。其中,方法包括:对具体的业务事实创建数据仓库的主题,然后根据所述主题生成一组维度表、事实表和汇聚表,再根据主题、维度表、事实表和汇聚表建立数据仓库;在数据仓库的存储上设计了两个数据库,一个是前台库,另外一个是后台库;所述前台库是所述数据仓库对外提供查询的数据库,所述后台库是所述数据仓库在执行数据抽取的库;ETL执行时,根据所述事实表和维度表的描述信息,生成对应的sql语句,在所述后台库上按租户启动抽取任务。本发明提出的方案,同以往相比大大缩短了开发周期,并且能支持客户个性化的配置。相比同类别更新周期最多不超过1小时,极大的提升了客户体验。

主权项:1.一种数据仓库建模和抽取方法,其特征在于,所述方法包括:步骤S1、模型设计:对具体的业务事实创建数据仓库的主题,然后根据所述主题生成一组维度表、事实表和汇聚表,再根据主题、维度表、事实表和汇聚表建立数据仓库;步骤S2、ETL过程:在数据仓库的存储上设计了两个数据库,一个是前台库,另外一个是后台库;所述前台库是所述数据仓库对外提供查询的数据库,所述后台库是所述数据仓库在执行数据抽取的库;ETL执行时,根据所述事实表和维度表的描述信息,生成对应的sql语句,在所述后台库上按租户启动抽取任务;在所述步骤S1中,所述对具体的业务事实创建数据仓库的主题,然后根据所述主题生成一组维度表、事实表和汇聚表,再根据主题、维度表、事实表和汇聚表建立数据仓库的具体方法包括:步骤S1.1、在目录列表创建主题名称,定义好主题各种属性;步骤S1.2、为体现主题若干项的各分析角度,定义各项维度表,存储稳定的、不易修改的数据,并且所述数据是事实表的某个属性字段;步骤S1.3、根据确定好的事实数据和维度,创建事实表,存储实际产生的业务数据;步骤S1.4、根据所述事实表和维度表的设计汇聚表,用于把多个事实表和维度表按需组合形成到一张表中,对外提供统一的查询方式;在所述步骤S1中,设计所述各项维度表的具体方法包括:使用单一代理主键:如果某一个维度确实由多个字段才能唯一确定,就把这些字段拼接成一个字段作为所述维度表的主键;使用版本号做增量更新:如果维度表更新,也需要保留原始的记录,生成一条新的维度信息,两条维度信息都对应着同一个维度值,只是版本号不一样,版本号是根据时间信息生成的,在不同的查询周期内使用对应版本号的维度值;记录来源信息:记录维度数据从哪里来的,根据来源信息追溯维度数据来源,维度数据之间血缘关系;假删除:维度数据一旦生成,就不会删掉;在所述步骤S1中,所述设计所述各项维度表的具体方法还包括:将日期维度的复杂度封装到维度表中,简化事实表;在所述步骤S1中,所述数据仓库的数据集市的职责是由所述汇聚表来承担;所述汇聚表是所述数据仓库的出口,所述数据仓库的访问主要通过汇聚表进行;所述汇聚表的设计方法包括:从各项角度分析原始数据结构,定义各项维度;根据维度字段一次性选择所有维度字段;选择事实表的度量和汇聚方式,生成汇聚表;在所述步骤S2中,所述前台库和后台库在结构上完全一样,在物理上完全隔离,程序里配置一个参数作为数据库的标识,指示当前使用的是哪一个数据库,后台数据库无法由使用者直接访问到;在所述步骤S2中,当所述后台数据库上的抽取任务完成后,会执行一条指令修改当前数据库的标识,把原来的前台库切换为后台库,把后台库切换为前台库,新旧数据库瞬间完成切换过程。

全文数据:

权利要求:

百度查询: 北京梦诚科技有限公司 一种数据仓库建模和抽取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。