买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于Hadoop的电力大数据处理系统_内蒙古电力(集团)有限责任公司乌海超高压供电局_202011186843.7 

申请/专利权人:内蒙古电力(集团)有限责任公司乌海超高压供电局

申请日:2020-10-30

公开(公告)日:2024-03-29

公开(公告)号:CN112256782B

主分类号:G06F16/25

分类号:G06F16/25;G06F16/27;G06Q10/0639;G06Q50/06

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2021.02.09#实质审查的生效;2021.01.22#公开

摘要:本发明提供一种基于Hadoop的电力大数据处理系统,涉及大数据处理技术领域。该系统通过数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;数据仓库子系统通过数据仓库将电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告;本发明的系统基于Hadoop技术,能够实时处理电力大数据,具有高可靠、高效、可伸缩、高容错、低成本的特点。

主权项:1.一种基于Hadoop的电力大数据处理系统,其特征在于:包括数据集成子系统、数据仓库子系统、数据质量管理子系统;所述数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;所述数据集成子系统包括数据采集模块和数据处理模块;所述数据采集模块以不同方式根据采集规则进行监控并采集相应的数据,并通过调用数据转换组件完成封装,再通过交换传输功能来完成数据从数据源到大数据平台的采集;采集驱动分为系统主动抽取和被动接收两种情况;所述主动抽取利用变化数据捕获、日志挖掘、标识字段和接口方式,提供实时或定时的全量抽取、增量抽取和全量式增量抽取;所述被动接收的数据导入支持手动导入、批量式接入,支持多格式文件导入,支持一次性、周期性或事件驱动型的数据导入;所述数据处理模块对存储在数据仓库源数据存储区的来自不同数据源的多源异构数据,通过ETL工具预处理后装载入数据仓库子系统的数据暂存区;ETL工具按照清洗规则对数据仓库子系统的数据暂存区、数据存储区的数据进行加工、汇总,最终装载入数据仓库的中央数据仓库中;所述数据处理模块进行数据处理的具体过程为:步骤1、数据预处理:加载源电力数据,增加时间拉链,并将数据载入数据仓库子系统的暂存区;然后对源电力数据做数据平衡检查、稽核数据有效性,并报告数据质量;步骤2、数据清洗:对数据仓库子系统暂存区中的电力数据利用ETL工具进行标准化清洗,统一数据表达格式、排序数据、筛选重复数据、合并或分割数据项、无效数据删除、缺失列删除、缺失值替换、异常值处理、行去重、列去重、代码替换、数据过滤、类型转换和格式转换,将标准化清洗后数据装载入数据仓库子系统数据存储区的基础数据层,并报告数据清洗异常;步骤3、数据转换:对数据仓库子系统数据存储区中的标准化电力数据,按照业务转换规则,增加序列、增加常量、行列转换、合并记录、数据项拼接、数据项拆分、数据类型转换、字符串替换、字符串填充、字符串剪切、字符串截断、数值提取、数值填充、值映射、计算函数转换、脚本执行、数据集拆分、数据集合并、数据集连接和数据集排序这些通用数据转换规则加工数据后装载入数据仓库的中央数据仓库中;所述数据仓库子系统通过数据仓库将数据集成子系统得到的电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;所述数据仓库划分为四个逻辑区域:源数据存储区、数据暂存区、数据存储区、中央数据仓库数据集市;所述数据仓库子系统的源数据存储区存储数据集成子系统采集的来自不同数据源的原始电力数据,也称为原始数据源;数据暂存区是为了保证数据移动的顺利进行而开设的增量性的数据存储空间,是源数据存储区中的原始电力数据进入中央数据仓库前的缓存区;所述数据暂存区的电力数据与现有的OLTP交易系统实体结构具有相同的属性,同时增加表示数据来源的属性SOURCECODE和用于获得数据处理时间的属性LASTMODIFIEDDATE;如果原始的电力数据中已经有了上述两个属性,则在这两个属性中增加DW后缀进行标识;数据暂存区的电力数据成功导入数据存储区之后,清空数据暂存区中的数据;数据存储区中的数据作为数据仓库的数据进行存储;数据存储区从逻辑上分为两部分,一部分用来存放OLTP交易系统的历史数据,并确定是否对OLTP中的交易数据与基础数据进行生命周期管理;另一部分存放数据仓库部分加工的信息,即通过数据存储区对历史数据经过整合后的信息;中央数据仓库为具有星型结构的多维数据存储区,中央数据仓库的实体包括事实实体和尺寸实体;中央数据仓库支持最细粒度级别数据查询,保证在最细粒度级别实现多维的分析,即能够同时支持汇总数据以及明细数据的多维查询;数据集市是某一主题领域的专有的多维数据区,实现某一主题领域的多维查询需求;数据集市的实体也包括事实实体和尺寸实体两部分,但与中央数据仓库不同的是这部分的事实实体和尺寸实体都是为某一主题服务的;其中,事实实体是指某个事物的各方面信息的描述,描述性的属性包括:该事物各方面的度量信息,相关度量信息的维度信息;尺寸实体是与事实实体相关的维信息,包括多个事实实体共有的维度信息以及某个事实实体需要的专有的维信息;所述数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告;所述数据质量管理子系统对电力数据进行质量管理的各环节具体为:环节一、电力数据使用情况监控;追踪数据仓库中的电力数据在现有的电力业务系统中的使用情况,与数据申请形成考核和管控检测报表,供相关管理部门使用;对超过规定时间不用的电力数据,进行数据清理和归档,实现数据的全生命周期管理;环节二、电力数据质量监控;记录原始数据经过数据处理模块进行数据清洗后产生的元数据,并对该元数据进行评分,得出数据质量分数,生成数据质量报告;并对大数据清洗后的元数据和原始数据比较,记录问题数据、分析数据问题原因;环节三、数据质量管理;建立一个端到端的数据管理体系,包括数据风险管理、价值创造、组织流程、管理策略、数据责任人多项内容;环节四、数据质量剖析;建立标准化的数据质量分析模型,并根据电力数据质量监控环节产生的数据质量报告启动数据预警机制;质量分析结果以评分或等级形式表述数据质量的高低程度,并设置数据质量的最低阈值和最高阈值,当数据质量分数低于最低阈值或高于最高阈值时,启动相应的数据预警机制,告之数据管理员采取相应的处理措施;并当预警机制启动时,立即触发数据清理预案,开展数据清理工作。

全文数据:

权利要求:

百度查询: 内蒙古电力(集团)有限责任公司乌海超高压供电局 基于Hadoop的电力大数据处理系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。