买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于Spark Streaming的数据处理方法、装置、计算机设备及存储介质_北京锐安科技有限公司_201911213201.9 

申请/专利权人:北京锐安科技有限公司

申请日:2019-12-02

公开(公告)日:2022-04-08

公开(公告)号:CN110908788B

主分类号:G06F9/48(20060101)

分类号:G06F9/48(20060101);G06F16/182(20190101)

优先权:

专利状态码:有效-授权

法律状态:2022.04.08#授权;2020.04.17#实质审查的生效;2020.03.24#公开

摘要:本发明实施例公开了一种基于SparkStreaming的数据处理方法、装置、计算机设备及存储介质。该方法包括:获取当前批次的至少两个第一待执行任务,并合并为第二待执行任务,其中,第一待执行任务封装在弹性分布式数据集RDD中;执行第二待执行任务并将执行结果数据存储至分布式文件系统。本发明实施例所提供的技术方案,解决了由于NameNode的处理请求能力下降而导致的SparkStreaming进行数据处理时吞吐量下降的问题,减少了任务生成的文件数,即减少了向NameNode发出的请求数量,进而提高了NameNode处理请求能力的稳定性,从而提高了SparkStreaming数据处理时的吞吐量。

主权项:1.一种基于SparkStreaming的数据处理方法,其特征在于,包括:获取当前批次的至少两个第一待执行任务,并合并为第二待执行任务,其中,所述第一待执行任务封装在弹性分布式数据集RDD中;执行所述第二待执行任务并将执行结果数据存储至分布式文件系统;所述获取当前批次的至少两个第一待执行任务,包括:接收数据源发送的数据;将预设时间内获取的数据封装成RDD,同一批次的至少两个RDD对应的第一待执行任务为并行任务;根据RDD和RDD生成时间,更新预先构建的RDD队列,同时创建一个后台线程;所述后台线程从所述RDD队列中获取所述当前批次的至少两个RDD对应的第一待执行任务。

全文数据:

权利要求:

百度查询: 北京锐安科技有限公司 基于Spark Streaming的数据处理方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术