申请/专利权人:北京锐安科技有限公司
申请日:2019-12-02
公开(公告)日:2022-04-08
公开(公告)号:CN110908788B
主分类号:G06F9/48(20060101)
分类号:G06F9/48(20060101);G06F16/182(20190101)
优先权:
专利状态码:有效-授权
法律状态:2022.04.08#授权;2020.04.17#实质审查的生效;2020.03.24#公开
摘要:本发明实施例公开了一种基于SparkStreaming的数据处理方法、装置、计算机设备及存储介质。该方法包括:获取当前批次的至少两个第一待执行任务,并合并为第二待执行任务,其中,第一待执行任务封装在弹性分布式数据集RDD中;执行第二待执行任务并将执行结果数据存储至分布式文件系统。本发明实施例所提供的技术方案,解决了由于NameNode的处理请求能力下降而导致的SparkStreaming进行数据处理时吞吐量下降的问题,减少了任务生成的文件数,即减少了向NameNode发出的请求数量,进而提高了NameNode处理请求能力的稳定性,从而提高了SparkStreaming数据处理时的吞吐量。
主权项:1.一种基于SparkStreaming的数据处理方法,其特征在于,包括:获取当前批次的至少两个第一待执行任务,并合并为第二待执行任务,其中,所述第一待执行任务封装在弹性分布式数据集RDD中;执行所述第二待执行任务并将执行结果数据存储至分布式文件系统;所述获取当前批次的至少两个第一待执行任务,包括:接收数据源发送的数据;将预设时间内获取的数据封装成RDD,同一批次的至少两个RDD对应的第一待执行任务为并行任务;根据RDD和RDD生成时间,更新预先构建的RDD队列,同时创建一个后台线程;所述后台线程从所述RDD队列中获取所述当前批次的至少两个RDD对应的第一待执行任务。
全文数据:
权利要求:
百度查询: 北京锐安科技有限公司 基于Spark Streaming的数据处理方法、装置、计算机设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。