【发明授权】一种面向Spark的批处理应用执行时间预测模型构建方法_北京工业大学_202010102494.X

导航：龙图腾网> 最新专利技术> 一种面向Spark的批处理应用执行时间预测模型构建方法_北京工业大学_202010102494.X

申请/专利权人：北京工业大学

申请日：2020-02-19

公开（公告）日：2024-04-23

公开（公告）号：CN111309577B

主分类号：G06F11/34

分类号：G06F11/34;G06F18/23213;G06F18/2431;G06F18/214;G06F18/27;G06F18/2135

优先权：

专利状态码：有效-授权

法律状态：2024.04.23#授权;2020.07.14#实质审查的生效;2020.06.19#公开

摘要：一种面向Spark的批处理应用执行时间预测模型构建方法属于分布式计算领域。本发明提出了一种考虑了不同应用特征的Spark批处理应用执行时间预测模型，首先根据Spark系统中批处理应用执行原理选取分类方法影响因素，从中筛选出强相关指标并构建批处理应用执行时间分类方法，然后在每一类批处理应用中充分分析了影响应用执行时间的指标并利用主成分分析法PCA和梯度提升决策树算法GBDT对应用执行时间进行预测，最后当即席应用到达之后，先判断其所属应用类别继而使用已构建的预测模型来预测其执行时间。

主权项：1.一种面向Spark的批处理应用执行时间预测模型构建方法，其特征在于，执行过程分为2个阶段：1Spark批处理应用执行时间预测模型的构建1-1初始化1-1.1根据Spark批处理应用的计算特征和对资源使用的特征分别在应用层和系统层选取影响Spark批处理应用执行时间的备选指标；1-1.2采用控制变量法，变化上述备选指标，寻找在当前的指标组合下，该批处理应用的执行时间，样本集的形式化定义如1所示：T＝{x11,x12,…x1n,y1,…xm1,xm2,…xmn,ym}1其中xij表示第i个样本的第j个特征属性的特征值，m是样本的个数，n是特征指标的个数，yi表示在特征集{xi1,xi2,…xin}下的应用执行时间；1-2Spark批处理应用执行时间分类1-2.1用斯皮尔曼相关系数从备选指标中选择与应用执行时间强相关性的指标；计算公式如2所示：其中m表示样本的数量，di＝αi-βi，其中元素αi、βi分别表示某种指标的第i个指标值在此指标集中的排行和第i条样本的执行时间在执行时间集合中的排行；1-2.2定义数据点P＝p1,p2,…,pn；其中p1…pn是应用执行时间的强相关指标；1-2.3采用标准化欧式距离来计算数据点间距离，计算公式如3所示：其中Pej和Pfj分别表示数据点Pe和Pf的第j个指标值，sj为两个数据点间第j个特征值的标准差；1-2.4选用均值漂移聚类算法对Spark批处理应用的执行时间进行分类：1-2.4.1在未被分类的数据点中随机选择一个点作为中心O＝RandomSelects；1-2.4.2找出离中心点距离在半径值r之内的所有点，记做集合R，认为这些点属于簇c，Qr＝{s:Distances,prer}；1-2.4.3计算从中心点开始到集合R中每个元素的向量，将这些向量相加，得到偏移向量其中，Qr是以O为中心点，半径为r的高维球区域；num是包含在Qr范围内点的个数；xi是包含在Sr范围内的点；1-2.4.4将中心点移动到偏移均值位置Oz+1＝Rz+Oz其中，Rz为z状态下求得的偏移均值；Oz为z状态下的中心；1-2.4.5重复步骤1-2.4.1-1-2.4.4，直到偏移向量的大小大于0.01，记住此时的中心点；1-2.4.6重复1-2.4.1-1-2.4.5，直到所有的点都被归类；1-2.4.7根据每个类，对每个点的访问频率，取访问频率最大的那个类，作为当前点集的所属类；1-2.4.8从小到大变化r值，重复步骤1-2.4.1到1-2.4.7，直到寻找到能够使评价函数E最小的分类方式，计算方法如4：其中，Pc表示类簇c的某个数据点，Oc表示类簇c的中心点，k为类簇个数；1-3Spark批处理应用执行时间预测1-3.1根据Spark应用执行流程来筛选出所有可能影响应用执行时间的参数；1-3.2变化应用的输入数据规模以及配置参数的组合，寻找在当前输入数据规模以及配置参数下，该批处理应用的执行时间；模型中训练样本集的形式化定义如下：对于每一类应用L，样本数据集表示为：TL＝{x11,x12,…x1n,y1,…xm1,xm2,…xmn,ym}5其中xij表示为类别L中第i个样本的第j个特征属性的取值，m是样本的个数，n是特征指标的个数，yi表示在特征取值{xi1,xi2,…xin}下的应用执行时间；选用PCA对影响Spark批处理应用执行时间的因素进行主成分提取：1-3.3将上述数据按列组成m*n的矩阵，并对矩阵按照公式6进行标准化处理：其中，Bij为标准化后数据，θij为原始数据，^θj为第j个指标的平均值，Sj为第j个指标的标准差；1-3.4计算标准化后n个指标的两两相关矩阵；1-3.5求取相关矩阵的特征根μj，特征向量，贡献率wj和累计贡献率zj；贡献率是相关矩阵中第j大的特征值占全部相关矩阵特征值总和的比重，计算公式为：累计贡献率是相关矩阵中前j个特征值的和与相关矩阵中全部特征值的和的比值，这个值越大，说明前j个成分越能充分代表原始数据的信息；计算公式为： 1-3.6将特征向量按对应特征值大小从上到下按行排列成矩阵选，取前j个指标，使其累积贡献率大于85％，则使用前j个综合指标代替原始的n个指标，达到数据降维的目的；选用GBDT对Spark批处理应用的执行时间进行预测：1-3.7按照公式9初始化弱分类器：其中，LyI,fx是定义的损失函数，m是样本个数；1-3.8对每个样本计算负梯度作为残差： 1-3.9将残差作为新的样本真实值，组成新的训练数据，训练新的弱分类器：其中，Djh为第h棵回归树叶子节点的个数；1-3.10对强分类器进行更新： 1-3.11重复步骤1-3.7-1-3.10t次，t为回归树的个数；1-3.12获得最终分类器 1-4结束，完成Spark批处理应用执行时间预测模型的构建；2即席应用执行时间的类别匹配及预测2-1初始化：2-1.1将该应用运行在一组小规模输入数据集DS＝{ds1,ds2,…}下，对于每个输入数据集dsi，分别收集Spark批处理应用执行时间分类方法的特征指标；2-1.2分别计算上述指标的均值作为最终的特征指标；2-2即席应用执行时间分类：执行第一阶段Spark批处理应用执行时间预测模型的构建中的步骤1-2.4，对于分类方法中各个类簇的中心点Oc分别根据公式3计算距离dP,Oc；最终，将使距离dP,Oc最小的类别c作为该应用的类别；2-3即席应用执行时间预测：执行第一阶段Spark批处理应用执行时间预测模型的构建中的步骤1-3，完成即席应用的执行时间预测；2-4结束，完成即席应用执行时间的类别匹配及预测。

全文数据：

权利要求：

百度查询：北京工业大学一种面向Spark的批处理应用执行时间预测模型构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

下一篇：一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

相关技术

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

执行相关技术

内曲线齿轮式气动马达执行器_鹤飞机械有限公司_201910475045.7

基于模拟执行的JAVA代码反混淆器_广州大学_202410050617.8

用于执行吸热过程的重整炉_乔治洛德方法研究和开发液化空气有限公司_202011235465.7

用于运行风扇的方法和用于执行该方法的系统_施乐百有限公司_202280059160.6

在NR V2X中执行PSFCH传输的方法和装置_LG电子株式会社_202180016796.8

摄像系统、处理装置及在摄像系统中由计算机执行的方法_松下知识产权经营株式会社_202280061311.1

一种草莓柔性采摘的末端执行装置_华中农业大学_201811140950.9

与外部设备执行对等通信而无需主机干预的存储设备_三星电子株式会社_201811366495.4

一种用于电门钥匙开关试验的执行机构_中检西部检测有限公司_202322337403.2

一种穿刺手术的引导夹臂、定位组件、末端执行器及机器人_深圳市箴石医疗设备有限公司_202320109530.4

时间相关技术

TSN时间窗口的检测判定方法和装置_昆高新芯微电子(江苏)有限公司_202111142360.1

一种时间敏感网络性能评估方法_中国科学院沈阳自动化研究所_202111441534.4

确定时间延迟的装置和方法_摩托罗拉移动有限责任公司_201780091639.7

一种自适应启动时间补偿装置_漳州立达信光电子科技有限公司_202322145239.5

基于时间的一次性密码算法的身份认证方法和装置_支付宝(杭州)信息技术有限公司_202210150943.7

一种基于感知损失的乳腺MRI影像时间序列生成方法_杭州电子科技大学_202210058765.5

一种确定倾斜油藏注采干扰时间的计算方法_常州大学_202310197442.9

一种内窥镜视频信号延迟时间测试系统及方法_极限人工智能有限公司_202310244358.8

一种适合长时间工作的废纸破碎机_合肥方格机械有限公司_202322110224.5

一种缩减检修时间的污水处理装置_安徽三江水务工程有限公司_202322497940.3

应用相关技术

青稞发酵液的应用_上海自然堂集团有限公司_202010231847.6

用于电子终端的应用切换方法和应用切换装置_广州三星通信技术研究有限公司_202010294036.0

GITR相关的多肽及其应用_湖南中晟全肽生物科技股份有限公司_202310879434.2

树脂组合物和其应用_三菱瓦斯化学株式会社_201980042158.6

一种转子及其应用_广东美芝制冷设备有限公司_202211297231.4

一种抗性基因及其应用_中国科学院青岛生物能源与过程研究所_202310609682.5

黄酮生物合成相关酶及其应用_中国科学院青岛生物能源与过程研究所_202310612980.X

一种靶向BCMA的抗体及其应用_北京奇迈永华生物科技有限公司_202311289008.X

特异性识别TRAIL的抗体及其应用_北京三诺佳邑生物技术有限责任公司_202311321995.7

一种破乳剂及其制备方法和应用_长江大学_202210736669.1

龙图腾网&IPTOP

【发明授权】一种面向Spark的批处理应用执行时间预测模型构建方法_北京工业大学_202010102494.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务