买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向数据湖中空间矢量数据的质量检查方法_易智瑞信息技术有限公司_202310666494.6 

申请/专利权人:易智瑞信息技术有限公司

申请日:2023-06-06

公开(公告)日:2024-03-15

公开(公告)号:CN116756258B

主分类号:G06F16/29

分类号:G06F16/29;G06F16/215;G06F16/901

优先权:

专利状态码:有效-授权

法律状态:2024.03.15#授权;2024.02.20#专利申请权的转移;2023.10.03#实质审查的生效;2023.09.15#公开

摘要:本申请的实施例提供了一种面向数据湖中空间矢量数据的质量检查方法。所述方法包括基于配置完成的质检任务构建有向无环图,并将有向无环图提交至DAG调度器;DAG调度器对有向无环图进行解析,将有向无环图划分为步骤组,并将步骤组提交至Spark集群的任务调度程序;Spark任务调度程序将步骤组发送至Spark的Executor;Executor逐项执行步骤组;当步骤组执行结束后,Executor将执行结果写入SpatialRDD;通过df.write.format"delta".modeSaveMode.Overwrite.option"overwriteSchema","true".save读取SpatialRDD中的执行结果,将其数据格式转换为业务系统可读的空间数据并存储至业务系统库。以此方式,可以对数据湖中的空间矢量数据实现质量检查,并提高大规模数据量下的空间矢量数据质检效率。

主权项:1.一种面向数据湖中空间矢量数据的质量检查方法,其特征在于,包括:基于配置完成的质检任务构建有向无环图,并将所述有向无环图提交至DAG调度器;DAG调度器对所述有向无环图进行解析,将所述有向无环图划分为步骤组,并将所述步骤组提交至Spark集群的任务调度程序;Spark任务调度程序将所述步骤组发送至Spark的Executor;Executor逐项执行所述步骤组;当所述步骤组执行结束后,Executor将执行结果写入SpatialRDD;通过df.write.format"delta".modeSaveMode.Overwrite.option"overwriteSchema","true".save读取SpatialRDD中的所述执行结果,将其数据格式转换为业务系统可读的空间数据并存储至业务系统库;响应于构建信息构建所述质检任务,并将所述质检任务注册至资源调度中心;资源调度中心评估所述质检任务的消耗资源以及监测Spark集群的计算资源;在Spark集群的计算资源大于所述质检任务的消耗资源时,将所述质检任务提交至Spark集群;其中,所述构建信息包括任务名称、执行周期、任务优先级、执行时所需的CPU数、执行时所需的内核数以及执行时所需的质量检查规则;配置所述质检任务包括:通过配置Delta的扩展模块io.delta.sql.DeltaSparkSessionExtension,实现通过表方式进行空间矢量数据的管理;通过ApacheSedona空间对象的Kryo序列化库将所述空间矢量数据序列化为空间对象和空间索引;定义任务参数,并对所述质检任务进行解析得到所述任务参数,其中,所述任务参数包括待读取的空间矢量数据、任务分配的Driver内存、CPU核数、执行单元数量、执行单元内存、所需的质量检查规则ID;创建DATAFrame数据集,作为从数据湖中读取的所述空间矢量数据的加载空间;配置所需的质量检查规则的执行顺序;配置所述执行结果存储位置,使得所述执行结果存储至SpatialRDD。

全文数据:

权利要求:

百度查询: 易智瑞信息技术有限公司 一种面向数据湖中空间矢量数据的质量检查方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。