申请/专利权人:河南大学
申请日:2021-08-04
公开(公告)日:2024-04-09
公开(公告)号:CN113792041B
主分类号:G06F16/22
分类号:G06F16/22;G06F16/2458;G06F16/27;G06F16/28;G06F16/51
优先权:
专利状态码:有效-授权
法律状态:2024.04.09#授权;2021.12.31#实质审查的生效;2021.12.14#公开
摘要:本发明提供一种基于Hive和Spark的遥感数据服务离线批处理系统及其数据处理方法。该系统包括采集模块、存储模块、计算模块、数据服务接口和数据应用模块,所述计算模块包括迭代式内存计算Spark和统一资源调度管理Yarn;所述系统还包括:Hive数据仓库;所述Hive数据仓库包括原始数据ODS层、维度数据DIM层、明细数据EDW层、汇总数据CDM层和应用数据APP层。本发明使用Hive和Spark计算引擎来对遥感数据服务进行离线处理,为满足用户多样化的需求、实现主动的服务模式提供数据支撑。
主权项:1.基于Hive和Spark的遥感数据服务离线批处理系统,包括采集模块、存储模块、计算模块、数据服务接口和数据应用模块,其特征在于,所述计算模块包括迭代式内存计算Spark和统一资源调度管理Yarn;所述系统还包括:Hive数据仓库;所述Hive数据仓库包括原始数据ODS层、维度数据DIM层、明细数据EDW层、汇总数据CDM层和应用数据APP层;所述原始数据ODS层,用于将采集到的遥感用户行为数据和遥感服务平台业务数据保持数据的原貌;创建支持压缩的表,通过该表按照日期对数据进行分区存储;所述维度数据DIM层,用于统计事实度量值时所需要的多样环境;所述明细数据EDW层,用于对遥感用户行为数据进行解析得到启动日志表、基础明细表和动作日志表;以及用于根据业务过程对保持原貌的遥感服务平台业务数据进行建模;所述汇总数据CDM层,用于将公共型数据进行聚集沉淀,采用宽表化的处理方式将预设时间周期内的数据按照主题划分进行轻度汇总;所述应用数据APP层,用于对要分析的指标进行统计计算;其中,所述要分析的指标包括预设时间周期的活跃数、下单总次数、下单用户数、各地区下单量排行、各地区检索量排行和各产品检索量与下单量。
全文数据:
权利要求:
百度查询: 河南大学 基于Hive和Spark的遥感数据服务离线批处理系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。