买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种Spark任务输出目录并行加速方法_西安烽火软件科技有限公司_202311634691.6 

申请/专利权人:西安烽火软件科技有限公司

申请日:2023-12-01

公开(公告)日:2024-03-01

公开(公告)号:CN117632368A

主分类号:G06F9/455

分类号:G06F9/455;G06F9/50

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.19#实质审查的生效;2024.03.01#公开

摘要:本发明涉及数据计算技术领域,更具体地说是一种Spark任务输出目录并行加速方法,并行加速方法具体步骤包括:job启动创建目录、Task运行创建文件、Task运行创建目录、commitTask数据转移和创建标记文件;通过对FileOutputCommitter中commitJobInternal方法进行修改,优化了v1算法的处理方式,由单线程的方式改为多线程的方式进行操作,构建线程池,并发处理Spark任务输出数据落盘时间,在保证数据一致性的前提下提高v1算法性能,兼顾了Spark任务数据的一致性和性能,进而解决了V1算法数据一致性好于V2算法,V2算法性能好于V1算法,这种不均衡的问题。

主权项:1.一种Spark任务输出目录并行加速方法,其特征在于,Spark任务包括job和Task线程执行进度,并行加速方法包括V1算法和V2算法,具体步骤如下:S1:job启动创建目录,job启动时创建一个目录,作为本次运行的输出临时目录;S2:Task运行创建文件,Task开始运行后,会创建一个文件,后面这个Task的所有输出都会被写到这个文件中;Task运行完成后,检查Task和job是否需要commit;S3:Task运行创建目录,Task开始运行后会创建一个临时目录和正式目录,Task线程将Task的所有执行尝试信息进行记录的数组数据写入Task临时目录中;S4:commitTask数据转移,commitTask由Task线程将Task临时目录数据移动到Task正式目录;S5:创建标记文件,Job执行完后,调用commitJob方法,commitJob由Driver多线程将所有Task正式目录数据移动至输出目录,并创建_SUCCESS标记文件。

全文数据:

权利要求:

百度查询: 西安烽火软件科技有限公司 一种Spark任务输出目录并行加速方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。