买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于flink cdc技术同步批量表到hudi的方法_天翼云科技有限公司_202311708917.2 

申请/专利权人:天翼云科技有限公司

申请日:2023-12-13

公开(公告)日:2024-04-05

公开(公告)号:CN117827469A

主分类号:G06F9/52

分类号:G06F9/52;G06F16/22;G06F16/27;G06F16/23

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.23#实质审查的生效;2024.04.05#公开

摘要:本发明公开了一种基于flinkcdc技术同步批量表到hudi的方法,包括以下步骤:步骤一:通过表映射模块负责确定每个源表与hudi表的对应关系,默认情况下,每个源表都会被同步到同名的hudi表;步骤二:通过schema同步模块负责自动创建及更新flinkhudi表,动态从数据源中获取源表的主键和列信息,并根据数据类型映射关系,将源表的列转换为对应的flinksql数据类型的hudi表列,同时结合从外部系统加载的表属性配置,即生成hudi表完整schema信息,最后基于flinkCatalog创建表或更新表结构。本发明通过[schema同步模块]自动根据源表元数据生成hudi表,基于[表映射模块]支持一源表写到多hudi表、多源表写到同一hudi表,实现在同一flink任务中将多源表的数据同步到多hudi表,减少资源消耗。

主权项:1.一种基于flinkcdc技术同步批量表到hudi的方法,其特征在于,包括以下步骤:步骤一:通过表映射模块负责确定每个源表与hudi表的对应关系,默认情况下,每个源表都会被同步到同名的hudi表;步骤二:通过schema同步模块负责自动创建及更新flinkhudi表,动态从数据源中获取源表的主键和列信息,并根据数据类型映射关系,将源表的列转换为对应的flinksql数据类型的hudi表列,同时结合从外部系统加载的表属性配置,即生成hudi表完整schema信息,最后基于flinkCatalog创建表或更新表结构;步骤三:通过数据处理模块负责处理从数据源捕获到的[主数据流],并最终将数据写入各个hudi表,通过分流方式,为每个输出的hudi表创建一个元素类型为Row的[hudi表数据流],在分流的过程中,将一源表的行数据复制到不同的[hudi表数据流],或者将不同源表的行数据添加到相同的[hudi表数据流]中,最终分别将每个[hudi表数据流]转化为flinkTable对象并插入到对应的hudi表中。

全文数据:

权利要求:

百度查询: 天翼云科技有限公司 一种基于flink cdc技术同步批量表到hudi的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。