买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种埋点数据质量治理方法_焦点科技股份有限公司_202210553372.1 

申请/专利权人:焦点科技股份有限公司

申请日:2022-05-20

公开(公告)日:2024-04-26

公开(公告)号:CN114817171B

主分类号:G06F16/17

分类号:G06F16/17;G06F16/18;G06F16/28

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2022.08.16#实质审查的生效;2022.07.29#公开

摘要:本发明公开了一种埋点数据质量治理方法,基于对Spark和Flink的预处理,在构建的离线数仓和实时数仓的基础上,利用Impala建立离线表与实时表的联合视图,并在实时任务的过程中,当有新埋点产生时,实时更新上述Impala联合视图,并在次日离线表完成T‑1数据的解析后更新联合视图作为实时校验的数据源,同时定义埋点校验的规则,保存至后端mysql。前端发起post请求,后台接收请求解析参数,启动任务,筛选数据源,依据校验规则进行校验,并将校验结果写入mysql中保存,当前端监控到相应结果数据更新后,进行异步展示。本发明可以及时发现埋点错误数据,保证埋点数据质量,具有优越的高效性能。

主权项:1.一种埋点数据质量治理方法,其特征在于,包括如下步骤:步骤1:基于Spark和Flink对数据的预处理,构建离线数仓和实时数仓,利用Impala创建离线、实时数据的联合视图,当实时解析的数据中发现新的埋点字段时,通过Flink对数据的预处理将该埋点字段更新至联合视图中,当次日离线数仓完成T+1数据解析后,再次更新联合视图;步骤2:在前台以事件维度和属性维度定义每个埋点的校验规则,后台将定义的规则抽象成一条符合SparkSQL的where条件,保存至后端mysql,预设需要校验的埋点字段,预设校验所需的起止时间范围,以事件维度创建校验任务,所述事件维度包括每个事件下若干需要校验的埋点字段;前台对校验任务发起post请求,后台接收post请求;步骤3:后台post接收请求后解析相应校验任务的参数,根据参数启动后台校验任务,利用Impala读取联合视图中步骤2设定的校验的起止时间范围内的数据,再根据校验任务创建的事件维度依次读取mysql中每个事件下各埋点相应的校验规则,拼接成sql语句,对读取的联合视图中每条数据进行校验,判定校验是否通过,校验结束后将校验结果以表格形式写入后端mysql的表格,更新该任务的状态,所述状态包括成功和失败,若状态为失败,则在mysql的表格中生成校验失败的原因;步骤4:前台校验任务实时监控相应的mysql数据库的表格结果是否更新,并异步进行展示;所述步骤1中,所述Flink对数据的预处理包括对实时解析到的埋点字段与实时数仓现有的字段做对比,若是新埋点,则自动判断埋点数值的类型,将埋点字段名及其类型作为实时数仓的表字段信息实时新增至实时数仓中,再将实时数据落盘至实时数仓中,在联合视图中新增该字段,离线Hive表中该字段的值设为null。

全文数据:

权利要求:

百度查询: 焦点科技股份有限公司 一种埋点数据质量治理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。