买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于深度强化学习的云集群资源调度方法_陕西师范大学_202311544111.4 

申请/专利权人:陕西师范大学

申请日:2023-11-20

公开(公告)日:2024-02-13

公开(公告)号:CN117555683A

主分类号:G06F9/50

分类号:G06F9/50;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.01#实质审查的生效;2024.02.13#公开

摘要:一种基于深度强化学习的云集群资源调度方法,由构建作业资源需求向量、构建奖励函数、构建资源调度智能体网络、训练资源调度智能体网络步骤组成。本发明针对云计算集群的现有的资源调度方法法存在的实时性差、适应度低、调度性能低等问题,提出了以最小化作业平均带权周转时间为目标,通过将集群的系统状态s表示为图像并输入到资源调度智能体网络产生调度决策,将云集群的资源调度问题建模为深度强化学习问题,通过使用同步演员‑评论家深度强化学习方法,使智能体的训练过程更稳定,训练后的智能体具有实时性强、适应度高等优点,可用于云集群资源调度。

主权项:1.一种基于深度强化学习的云集群资源调度方法,其特征在于,由以下步骤组成:1构建作业资源需求向量按下式确定作业资源需求向量rj:rj=rj,1,rj,2,…,rj,d其中,rj,d表示作业j对第d种资源的需求量,j和d的取值为有限的正整数;2构建奖励函数按式1确定带权周转时间W:W=CT1其中,C是作业的周转时间,T表示作业的持续时间;按式2确定平均带权周转时间 其中,Wi表示作业i的带权周转时间,N为作业个数,N取值为有限的正整数;按式3确定每段时间步t的奖励函数rt: 其中,Tj表示作业j的要求服务时间;3构建资源调度智能体网络用同步演员-评论家深度强化学习方法构建资源调度智能体网络,该网络包含用于执行调度动作的演员网络和用于估计状态价值的评论家网络;所述的演员网络由输入层1与隐藏层1、输出层1依次串联构成;所述的评论家网络由输入层2与隐藏层2、输出层2依次串联构成;4训练资源调度智能体网络1构建目标函数的梯度按式5构建目标函数的梯度 其中,πθat|st表示资源调度智能体神经网络πθ在t时刻系统状态st的输入下输出动作at的概率,γk表示折扣因子,rst+k,at+k表示在t+k时刻系统状态st+k下执行动作at+k获得的奖励,Vst表示评论家网络对t时刻的系统状态st的价值估计;2训练资源调度智能体网络使用调度过程中的系统状态s,资源调度智能体输出动作a,As,a,训练资源调度智能体网络;在不同的云集群仿真环境中使用不同的作业序列,通过同时使用20个资源调度智能体和仿真环境交互,按式5确定每一个智能体的目标函数的梯度并汇总为全局梯度:使用均方根传播方法作为优化器,按式6更新神经网络的参数:g=α×g+1-α×Δθ26 其中,α是衰减率,取值为0.99,g是指数加权平均,η是学习率,取值为0.001,θ是神经网络的参数,Δθ是参数的梯度,迭代10000次后,得到云集群资源调度智能体。

全文数据:

权利要求:

百度查询: 陕西师范大学 基于深度强化学习的云集群资源调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。