【发明授权】基于Hadoop架构的数据精简方法和系统_蒲惠智造科技股份有限公司_202311630505.1

导航：龙图腾网> 最新专利技术> 基于Hadoop架构的数据精简方法和系统_蒲惠智造科技股份有限公司_202311630505.1

申请/专利权人：蒲惠智造科技股份有限公司

申请日：2023-12-01

公开（公告）日：2024-03-19

公开（公告）号：CN117331513B

主分类号：G06F3/06

分类号：G06F3/06;G06F16/242;G06F16/27

优先权：

专利状态码：有效-授权

法律状态：2024.03.19#授权;2024.01.19#实质审查的生效;2024.01.02#公开

摘要：本发明提供一种基于Hadoop架构的数据精简方法和系统。具体包括：对于Hadoop架构下的hive2clickhouse的数据同步任务，hive任务的每次运行过程中，增加同步时间字段；clickhouse系统的任务表以该同步时间字段为分区字段，建立新的分区，并设置适当的TTL值；hive任务重跑的时候产生的数据，会基于该同步时间字段进入clickhouse任务表中新的分区；clickhouse系统的bi查询引擎获取该新的分区的数据，执行查询处理；该处理过程中不会出现数据重复和翻倍的现象。

主权项：1.一种基于Hadoop架构的数据精简方法，其特征在于，包括：步骤S1，对于Hadoop架构下的hive2clickhouse的数据同步任务，hive任务的每次运行过程中，增加同步时间字段；步骤S2，clickhouse系统的任务表以该同步时间字段为分区字段，建立新的分区，并设置适当的TTL值；步骤S3，hive任务重跑的时候产生的数据，会基于该同步时间字段进入clickhouse任务表中新的分区，包括：hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中；对hive存储分区的各个分区进行自动比对，确定存在数据重复的分区；并且，对于属于数据重复的分区，进行重复数据关联去重处理；对于重复数据关联去重处理后的分区，将其关联的同步时间字段更新为最新的同步时间字段；以分区为单位同步到clickhouse任务表中新的分区；步骤S4，clickhouse系统的bi查询引擎获取该新的分区的数据，执行查询处理；该处理过程中不会出现数据重复和翻倍的现象。

全文数据：

权利要求：

百度查询：蒲惠智造科技股份有限公司基于Hadoop架构的数据精简方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

下一篇：一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

相关技术

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

一种偏摆检查仪_长春一东离合器股份有限公司_202420407178.7

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

再生废液处理系统_山东荣信集团有限公司_202322260404.1

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

龙图腾网&IPTOP

【发明授权】基于Hadoop架构的数据精简方法和系统_蒲惠智造科技股份有限公司_202311630505.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务