买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向Spark的批处理应用执行时间预测模型构建方法_北京工业大学_202010102494.X 

申请/专利权人:北京工业大学

申请日:2020-02-19

公开(公告)日:2024-04-23

公开(公告)号:CN111309577B

主分类号:G06F11/34

分类号:G06F11/34;G06F18/23213;G06F18/2431;G06F18/214;G06F18/27;G06F18/2135

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2020.07.14#实质审查的生效;2020.06.19#公开

摘要:一种面向Spark的批处理应用执行时间预测模型构建方法属于分布式计算领域。本发明提出了一种考虑了不同应用特征的Spark批处理应用执行时间预测模型,首先根据Spark系统中批处理应用执行原理选取分类方法影响因素,从中筛选出强相关指标并构建批处理应用执行时间分类方法,然后在每一类批处理应用中充分分析了影响应用执行时间的指标并利用主成分分析法PCA和梯度提升决策树算法GBDT对应用执行时间进行预测,最后当即席应用到达之后,先判断其所属应用类别继而使用已构建的预测模型来预测其执行时间。

主权项:1.一种面向Spark的批处理应用执行时间预测模型构建方法,其特征在于,执行过程分为2个阶段:1Spark批处理应用执行时间预测模型的构建1-1初始化1-1.1根据Spark批处理应用的计算特征和对资源使用的特征分别在应用层和系统层选取影响Spark批处理应用执行时间的备选指标;1-1.2采用控制变量法,变化上述备选指标,寻找在当前的指标组合下,该批处理应用的执行时间,样本集的形式化定义如1所示:T={x11,x12,…x1n,y1,…xm1,xm2,…xmn,ym}1其中xij表示第i个样本的第j个特征属性的特征值,m是样本的个数,n是特征指标的个数,yi表示在特征集{xi1,xi2,…xin}下的应用执行时间;1-2Spark批处理应用执行时间分类1-2.1用斯皮尔曼相关系数从备选指标中选择与应用执行时间强相关性的指标;计算公式如2所示: 其中m表示样本的数量,di=αi-βi,其中元素αi、βi分别表示某种指标的第i个指标值在此指标集中的排行和第i条样本的执行时间在执行时间集合中的排行;1-2.2定义数据点P=p1,p2,…,pn;其中p1…pn是应用执行时间的强相关指标;1-2.3采用标准化欧式距离来计算数据点间距离,计算公式如3所示: 其中Pej和Pfj分别表示数据点Pe和Pf的第j个指标值,sj为两个数据点间第j个特征值的标准差;1-2.4选用均值漂移聚类算法对Spark批处理应用的执行时间进行分类:1-2.4.1在未被分类的数据点中随机选择一个点作为中心O=RandomSelects;1-2.4.2找出离中心点距离在半径值r之内的所有点,记做集合R,认为这些点属于簇c,Qr={s:Distances,prer};1-2.4.3计算从中心点开始到集合R中每个元素的向量,将这些向量相加,得到偏移向量其中,Qr是以O为中心点,半径为r的高维球区域;num是包含在Qr范围内点的个数;xi是包含在Sr范围内的点;1-2.4.4将中心点移动到偏移均值位置Oz+1=Rz+Oz其中,Rz为z状态下求得的偏移均值;Oz为z状态下的中心;1-2.4.5重复步骤1-2.4.1-1-2.4.4,直到偏移向量的大小大于0.01,记住此时的中心点;1-2.4.6重复1-2.4.1-1-2.4.5,直到所有的点都被归类;1-2.4.7根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类;1-2.4.8从小到大变化r值,重复步骤1-2.4.1到1-2.4.7,直到寻找到能够使评价函数E最小的分类方式,计算方法如4: 其中,Pc表示类簇c的某个数据点,Oc表示类簇c的中心点,k为类簇个数;1-3Spark批处理应用执行时间预测1-3.1根据Spark应用执行流程来筛选出所有可能影响应用执行时间的参数;1-3.2变化应用的输入数据规模以及配置参数的组合,寻找在当前输入数据规模以及配置参数下,该批处理应用的执行时间;模型中训练样本集的形式化定义如下:对于每一类应用L,样本数据集表示为:TL={x11,x12,…x1n,y1,…xm1,xm2,…xmn,ym}5其中xij表示为类别L中第i个样本的第j个特征属性的取值,m是样本的个数,n是特征指标的个数,yi表示在特征取值{xi1,xi2,…xin}下的应用执行时间;选用PCA对影响Spark批处理应用执行时间的因素进行主成分提取:1-3.3将上述数据按列组成m*n的矩阵,并对矩阵按照公式6进行标准化处理: 其中,Bij为标准化后数据,θij为原始数据,^θj为第j个指标的平均值,Sj为第j个指标的标准差;1-3.4计算标准化后n个指标的两两相关矩阵;1-3.5求取相关矩阵的特征根μj,特征向量,贡献率wj和累计贡献率zj;贡献率是相关矩阵中第j大的特征值占全部相关矩阵特征值总和的比重,计算公式为: 累计贡献率是相关矩阵中前j个特征值的和与相关矩阵中全部特征值的和的比值,这个值越大,说明前j个成分越能充分代表原始数据的信息;计算公式为: 1-3.6将特征向量按对应特征值大小从上到下按行排列成矩阵选,取前j个指标,使其累积贡献率大于85%,则使用前j个综合指标代替原始的n个指标,达到数据降维的目的;选用GBDT对Spark批处理应用的执行时间进行预测:1-3.7按照公式9初始化弱分类器: 其中,LyI,fx是定义的损失函数,m是样本个数;1-3.8对每个样本计算负梯度作为残差: 1-3.9将残差作为新的样本真实值,组成新的训练数据,训练新的弱分类器: 其中,Djh为第h棵回归树叶子节点的个数;1-3.10对强分类器进行更新: 1-3.11重复步骤1-3.7-1-3.10t次,t为回归树的个数;1-3.12获得最终分类器 1-4结束,完成Spark批处理应用执行时间预测模型的构建;2即席应用执行时间的类别匹配及预测2-1初始化:2-1.1将该应用运行在一组小规模输入数据集DS={ds1,ds2,…}下,对于每个输入数据集dsi,分别收集Spark批处理应用执行时间分类方法的特征指标;2-1.2分别计算上述指标的均值作为最终的特征指标;2-2即席应用执行时间分类:执行第一阶段Spark批处理应用执行时间预测模型的构建中的步骤1-2.4,对于分类方法中各个类簇的中心点Oc分别根据公式3计算距离dP,Oc;最终,将使距离dP,Oc最小的类别c作为该应用的类别;2-3即席应用执行时间预测:执行第一阶段Spark批处理应用执行时间预测模型的构建中的步骤1-3,完成即席应用的执行时间预测;2-4结束,完成即席应用执行时间的类别匹配及预测。

全文数据:

权利要求:

百度查询: 北京工业大学 一种面向Spark的批处理应用执行时间预测模型构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。