【发明授权】一种基于Flink分布式处理FTP文件的方法_广州睿帆科技有限公司_202311826200.8

导航：龙图腾网> 最新专利技术> 一种基于Flink分布式处理FTP文件的方法_广州睿帆科技有限公司_202311826200.8

申请/专利权人：广州睿帆科技有限公司

申请日：2023-12-28

公开（公告）日：2024-03-08

公开（公告）号：CN117472517B

主分类号：G06F16/16

分类号：G06F16/16;G06F9/50;G06F16/18;H04L67/06

优先权：

专利状态码：有效-授权

法律状态：2024.03.08#授权;2024.02.20#实质审查的生效;2024.01.30#公开

摘要：本发明提供了一种基于Flink分布式处理FTP文件的方法，涉及数据处理技术领域，包括：对FTP文件系统中的多个FTP文件进行扫描并生成扫描获得的每个文件列表的逻辑数据流图；对每个逻辑数据流图进行算子链式优化，获得优化流数据处理线程；基于优化流数据处理线程，确定出每个逻辑数据流图中每个流步骤的并行度和每个算子的并发度；基于逻辑数据流图中每个流步骤的并行度和逻辑数据流图中包含的所有流步骤对应的算子的并发度以及Flink程序中的所有工作节点的实时状态信息，为逻辑数据流图的每个流步骤实时分配工作节点，直至遍历所有逻辑数据流图时，获得FTP文件处理结果；用以充分利用集群资源，对FTP数据文件实现高性能的实时数据处理。

主权项：1.一种基于Flink分布式处理FTP文件的方法，其特征在于，包括：S1：对FTP文件系统中的多个FTP文件进行扫描，获得多个文件列表，并生成每个文件列表的逻辑数据流图；S2：基于每个逻辑数据流图中的所有初始流数据处理线程中包含的每个流步骤中的算子信息对每个逻辑数据流图进行算子链式优化，获得优化流数据处理线程；S3：基于优化流数据处理线程，确定出每个逻辑数据流图中每个流步骤的并行度和每个算子的并发度；S4：基于逻辑数据流图中每个流步骤的并行度和逻辑数据流图中包含的所有流步骤对应的算子的并发度以及Flink程序中的所有工作节点的实时状态信息，为逻辑数据流图的每个流步骤实时分配工作节点，直至遍历所有逻辑数据流图时，获得FTP文件处理结果；其中，步骤S1：对FTP文件系统中的多个FTP文件进行扫描，获得多个文件列表，包括：对FTP文件系统中的多个FTP文件进行的状态信息进行扫描，并判断FTP文件的状态信息是否为初始状态，若是，则扫描FTP文件中的所有符合预设扫描规则的文件信息获得文件列表；否则，将FTP文件中状态信息中包含的对应时间戳大于已更新时间戳的文件信息进行扫描，获得文件列表；其中，生成每个文件列表的逻辑数据流图，包括：基于文件列表和FTP文件处理目标，确定出每个文件列表的多个处理数据对象和每个处理数据对象的处理流数据；对每个文件列表的所有处理数据对象的处理流数据进行合并汇总，获得每个文件列表的逻辑数据流图；其中，对每个文件列表的所有处理数据对象的处理流数据进行合并汇总，获得每个文件列表的逻辑数据流图，包括：确定出不同处理数据对象的处理流数据之间的重合流分区；将每个重合流分区中包含的每个原始流步骤的多个相同处理任务的多个处理数据对象汇总，生成合并流步骤；基于每个文件列表的所有处理数据对象的处理流数据中所有未被合并的原始流步骤和所有合并流步骤，生成每个文件列表的合并处理流数据；将每个文件列表的合并处理流数据中每个流步骤所需的算子和对应流步骤进行封装，获得每个文件列表的逻辑数据流图，其中流步骤包括原始流步骤和合并流步骤；其中，步骤S2：基于每个逻辑数据流图中的所有初始流数据处理线程中包含的每个流步骤中的算子信息对每个逻辑数据流图进行算子链式优化，获得优化流数据处理线程，包括：S201：确定出每个逻辑数据流图中的所有初始流数据处理线程，并确定出所有初始流数据处理线程中包含的每个流步骤中的算子信息；S202：基于每个逻辑数据流图中的所有初始流数据处理线程中包含的每个流步骤的算子信息，对每个逻辑数据流图进行算子链式优化，获得优化流数据处理线程；其中，步骤S202：基于每个逻辑数据流图中的所有初始流数据处理线程中包含的每个流步骤的算子信息，对每个逻辑数据流图进行算子链式优化，获得优化流数据处理线程，包括：基于每个逻辑数据流图中的所有初始流数据处理线程中包含的每个流步骤的算子信息，确定出逻辑数据流图中所有初始流数据处理线程中包含的每个流步骤的并行度和链策略类型以及数据分区方式；确定出用户定义的禁用规则；基于逻辑数据流图中所有初始流数据处理线程中包含的每个流步骤的并行度、链策略类型、数据分区方式以及用户定义的禁用规则，在逻辑数据流图中不同初始流数据处理线程中包含的相邻流步骤中，筛选出可优化相邻流步骤；将逻辑数据流图中的每个可优化相邻流步骤中包含的两个流步骤进行算子链合并，获得新的逻辑数据流图，并将新的逻辑数据流图中的所有流数据处理线程当作优化流数据处理线程；其中，基于逻辑数据流图中所有初始流数据处理线程中包含的每个流步骤的并行度、链策略类型、数据分区方式以及用户定义的禁用规则，在逻辑数据流图中不同初始流数据处理线程中包含的相邻流步骤中，筛选出可优化相邻流步骤，包括：将逻辑数据流图中不同初始流数据处理线程中包含的相邻流步骤中，包含的较前流步骤的并行度和较后流步骤的并行度相等的相邻流步骤、且包含的较前流步骤的链策略类型为第一预设类型且较后流步骤的链策略类型为第二预设类型、且包含的两个流步骤的数据分区方式为预设数据分区方式、且未被用户定义的禁用规则所定义、且包含的较后流步骤的入度为1的相邻流步骤，当作可优化相邻流步骤；其中，步骤S3：基于优化流数据处理线程，确定出每个逻辑数据流图中每个流步骤的并行度和每个算子的并发度，包括：确定出每个逻辑数据流图中每个流步骤在对应逻辑数据流图中的同级分支数，作为对应流步骤的并行度；确定出每个逻辑数据流图中每个流步骤对应的算子在对应流步骤中需要执行的子任务总数，当作对应算子的并发度；其中，步骤S4：基于逻辑数据流图中每个流步骤的并行度和逻辑数据流图中包含的所有流步骤对应的算子的并发度以及Flink程序中的所有工作节点的实时状态信息，为逻辑数据流图的每个流步骤实时分配工作节点，直至遍历所有逻辑数据流图时，获得FTP文件处理结果，包括：获取Flink程序中的所有工作节点的实时状态信息，基于Flink程序中的所有工作节点的实时状态信息实时确定出Flink程序中当前的所有可用工作节点；实时确定出每个逻辑数据流图中的当前待执行流步骤；基于逻辑数据流图中当前待执行流步骤的并行度和当前待执行流步骤对应的算子的并发度，在Flink程序中当前的所有可用工作节点中筛选出为逻辑数据流图中当前待执行流步骤分配的工作节点；直至遍历所有逻辑数据流图时，基于最后一次被分配的所有工作节点的实时状态信息，获得FTP文件处理结果；其中，基于逻辑数据流图中当前待执行流步骤的并行度和当前待执行流步骤对应的算子的并发度，在Flink程序中当前的所有可用工作节点中筛选出为逻辑数据流图中当前待执行流步骤分配的工作节点，包括：基于逻辑数据流图中当前待执行流步骤的并行度，在Flink程序中当前的所有可用工作节点中筛选出当前待执行流步骤的可选工作节点；将逻辑数据流图中当前待执行流步骤的对应的算子的并发度和与当前待执行流步骤属于同级别的其他流步骤对应的算子的并发度从大到小排序，获得并发度排序结果；基于并发度排序结果筛选出当前待执行流步骤的工作节点。

全文数据：

权利要求：

百度查询：广州睿帆科技有限公司一种基于Flink分布式处理FTP文件的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：视频数据发送方法、装置及电子设备_维沃移动通信有限公司_202210930148.X

下一篇：不依赖智能设备特征信息的远程屏幕状态自动检测方法_华泰财产保险有限公司_202111018581.8

相关技术

视频数据发送方法、装置及电子设备_维沃移动通信有限公司_202210930148.X

不依赖智能设备特征信息的远程屏幕状态自动检测方法_华泰财产保险有限公司_202111018581.8

一种直接通信接口承载配置变更方法及终端_大唐移动通信设备有限公司_201910895272.5

一种制备β-氨基砜类化合物的方法_中山大学_202211389942.4

用于输送物料的步进式循环动力装置_天津新玛特科技发展有限公司_201910898294.7

一种CdTe发电玻璃及其制造方法_中国建材国际工程集团有限公司_202111641433.1

一种液压冲击装置及其控制系统_广东三水合肥工业大学研究院_202110623149.5

用于取药装置的针剂取药方法、控制方法及其装置_苏州艾隆科技股份有限公司_202211259876.9

一种氮掺杂碳包覆MoC/MoO₂量子点异质结材料、制备方法及应用_合肥师范学院_202211735057.7

一种滚筒式壁纸自动切割的设备_金华市海洋包装有限公司_202111415330.3

一种抗旋转攻击的矢量地理数据数字水印方法_金陵科技学院_202111259854.8

一种野外矿产样品取样装置_李阳_202011273263.1

FTP相关技术

ftp服务弱口令检测方法、装置、设备及可读存储介质_杭州安恒信息安全技术有限公司_202111494909.3

一种基于FTP协议的多源分布式下载系统_甘肃省气象信息与技术装备保障中心_202210806656.7

一种基于FTP协议的断点续传文件的控制方法及系统_武汉思普崚技术有限公司_202111635356.9

一种基于FTP的U盘文件资源管理方法及系统_国网江西省电力有限公司电力科学研究院_202410245485.4

FTP服务器的控制方法、装置、系统和电子设备_北京天融信网络安全技术有限公司_202311836207.8

一种ftp流量的文件还原方法、装置以及处理设备_武汉思普崚技术有限公司_202410008141.1

基于MapReduce的FTP分布式采集方法_上海轻维软件有限公司_201710012512.3

一种基于Spring的声明式FTP传输方法和装置_天翼云科技有限公司_202311708898.3

一种基于FTP协议的调试控制方法和调试控制器_广州通则康威科技股份有限公司_202311767387.9

一种通过FTP协议实时获取HTTP资源的方法_天翼数字生活科技有限公司_202110980462.4

文件相关技术

基于文件思维导图的文件节点查看方法、装置及相关设备_深圳大学_202110419313.0

一种面向分布式文件系统的文件跨域同步方法_中国电子科技集团公司第二十八研究所_202311688206.3

一种文件签名验证、加密文件确定方法、装置、设备及介质_中国农业银行股份有限公司_202410101873.5

文件上传和文件上传状态查询方法及其设备、存储介质_中国建设银行股份有限公司_202210727195.4

FUSE文件系统下文件实时备份方法、装置、设备及介质_北京圣博润高新技术股份有限公司_202210227336.6

一种XML文件转为PDF文件的系统和方法_用友金融信息技术股份有限公司_202410003013.8

配置文件稽核方法及装置_中国电信股份有限公司_202410224992.X

跨终端文件同步方法及装置_珠海金山办公软件有限公司_202410277856.7

文件共享方法、系统及相关设备_花瓣云科技有限公司_202010089391.4

一种文件存放架_武汉凯泽源科技有限公司_202321980558.1

方法相关技术

检测方法_新加坡科技研究局_201880022278.5

接合方法_日本轻金属株式会社_202080089755.7

光刻方法_华虹半导体(无锡)有限公司_202110410014.0

分析方法_株式会社岛津制作所_202280062803.2

通信方法_京瓷株式会社_202280061374.7

模型生成方法、模型生成装置、相位估计方法、控制方法以及控制装置_株式会社国际电气通信基础技术研究所_202380013598.5

图像编码方法、编码流提取方法以及图像解码方法_夏普株式会社_202410153465.4

对话数据生成方法、系统、模型训练方法、对话处理方法_杭州阿里巴巴海外互联网产业有限公司_202311624147.3

材质转换方法，引擎的材质重建方法和渲染方法_厦门雅基软件有限公司_202211268624.2

模型训练方法、功耗预测方法、节能方法、设备、介质_中兴通讯股份有限公司_202211225884.1

龙图腾网&IPTOP

【发明授权】一种基于Flink分布式处理FTP文件的方法_广州睿帆科技有限公司_202311826200.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务