【发明公布】一种基于历史信息的Spark SQL Shuffle任务数优化系统_南京烽火星空通信发展有限公司_202410013742.1

申请/专利权人：南京烽火星空通信发展有限公司

申请日：2024-01-04

公开（公告）日：2024-04-05

公开（公告）号：CN117827881A

主分类号：G06F16/242

分类号：G06F16/242;G06F16/2453;G06F16/9535;G06N20/00

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.23#实质审查的生效;2024.04.05#公开

摘要：本发明公开了一种基于历史信息的SparkSQLShuffle任务数优化系统，涉及大数据、数据库以及机器学习领域，包含SQL历史运行信息抽取模块、SQL历史运行信息预分析模块、SQL相似性度量模块、HBO参数计算模块、HBO参数推荐服务模块；在SparkSQL引擎中引入基于历史信息的推荐模型，通过分析历史SQL的shuffle运行信息结机器学习算法，计算调优参数，指导当前SQL更加高效稳健地运行，实现推荐每个shuffle阶段的任务数，实现动态自适应的shuffle任务数设置，来规避静态shuffle任务数带来的一系列问题。

主权项：1.一种基于历史信息的SparkSQLShuffle任务数优化系统，其特征在于：包含SQL历史运行信息抽取模块、SQL历史运行信息预分析模块、SQL相似性度量模块、HBO参数计算模块、HBO参数推荐服务模块；其中，SQL历史运行信息抽取模块，用于负责从Spark事件日志中收集和抽取相关的SQL运行信息和指标，向SQL历史运行信息预分析模块和SQL相似性度量模块提供输入数据；SQL历史运行信息预分析模块，用于通过对历史SQL的各项运行指标进行统计和分析，以历史运行信息中的Stage级运行信息为主体分析对象，经处理后，形成以SQL对应的Stage为主体粒度的任务数计算参考信息，用于任务数的计算；SQL相似性度量模块，用于从历史SQL运行信息中提取SQL语句和AST，经过属性提取和特征提取将SQL语句转为特征向量，并进行相似度度量，生成SQL簇信息和SQL簇识别模型，分别用于任务数计算和任务数推荐服务；HBO参数计算模块，用于使用SQL历史运行信息预分析模块输出的Stage级参考信息和SQL相似性度量模块输出的SQL簇信息，计算每个SQL簇中Shuffle类型的Stage的任务数，并形成知识库，用于参数推荐服务；HBO参数推荐服务模块，用于向SQLCore模块提供任务数推荐服务，SQLCore模块在新SQL运行时调用任务数推荐服务，传入SQL语句、AST和其它参数，参数推荐服务模块根据上游业务模块生成的任务数知识库和SQL簇识别模型，实时推荐新SQLShuffle类型的Stage的任务数参数，为新SQL运行优化提供指导。

全文数据：

权利要求：

百度查询：南京烽火星空通信发展有限公司一种基于历史信息的Spark SQL Shuffle任务数优化系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

下一篇：无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

相关技术

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

一种饮料包装盒的快速消毒装置_赵唐玉玥_202322121652.8

一种可移动升降旋转变形床头置物柜_山西传媒学院_202322018692.X

龙图腾网&IPTOP

【发明公布】一种基于历史信息的Spark SQL Shuffle任务数优化系统_南京烽火星空通信发展有限公司_202410013742.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务