买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于历史信息的Spark SQL Shuffle任务数优化系统_南京烽火星空通信发展有限公司_202410013742.1 

申请/专利权人:南京烽火星空通信发展有限公司

申请日:2024-01-04

公开(公告)日:2024-04-05

公开(公告)号:CN117827881A

主分类号:G06F16/242

分类号:G06F16/242;G06F16/2453;G06F16/9535;G06N20/00

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.23#实质审查的生效;2024.04.05#公开

摘要:本发明公开了一种基于历史信息的SparkSQLShuffle任务数优化系统,涉及大数据、数据库以及机器学习领域,包含SQL历史运行信息抽取模块、SQL历史运行信息预分析模块、SQL相似性度量模块、HBO参数计算模块、HBO参数推荐服务模块;在SparkSQL引擎中引入基于历史信息的推荐模型,通过分析历史SQL的shuffle运行信息结机器学习算法,计算调优参数,指导当前SQL更加高效稳健地运行,实现推荐每个shuffle阶段的任务数,实现动态自适应的shuffle任务数设置,来规避静态shuffle任务数带来的一系列问题。

主权项:1.一种基于历史信息的SparkSQLShuffle任务数优化系统,其特征在于:包含SQL历史运行信息抽取模块、SQL历史运行信息预分析模块、SQL相似性度量模块、HBO参数计算模块、HBO参数推荐服务模块;其中,SQL历史运行信息抽取模块,用于负责从Spark事件日志中收集和抽取相关的SQL运行信息和指标,向SQL历史运行信息预分析模块和SQL相似性度量模块提供输入数据;SQL历史运行信息预分析模块,用于通过对历史SQL的各项运行指标进行统计和分析,以历史运行信息中的Stage级运行信息为主体分析对象,经处理后,形成以SQL对应的Stage为主体粒度的任务数计算参考信息,用于任务数的计算;SQL相似性度量模块,用于从历史SQL运行信息中提取SQL语句和AST,经过属性提取和特征提取将SQL语句转为特征向量,并进行相似度度量,生成SQL簇信息和SQL簇识别模型,分别用于任务数计算和任务数推荐服务;HBO参数计算模块,用于使用SQL历史运行信息预分析模块输出的Stage级参考信息和SQL相似性度量模块输出的SQL簇信息,计算每个SQL簇中Shuffle类型的Stage的任务数,并形成知识库,用于参数推荐服务;HBO参数推荐服务模块,用于向SQLCore模块提供任务数推荐服务,SQLCore模块在新SQL运行时调用任务数推荐服务,传入SQL语句、AST和其它参数,参数推荐服务模块根据上游业务模块生成的任务数知识库和SQL簇识别模型,实时推荐新SQLShuffle类型的Stage的任务数参数,为新SQL运行优化提供指导。

全文数据:

权利要求:

百度查询: 南京烽火星空通信发展有限公司 一种基于历史信息的Spark SQL Shuffle任务数优化系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。