买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于轨迹优化奖励的云计算任务自动调度方法_天翼云科技有限公司_202311712673.5 

申请/专利权人:天翼云科技有限公司

申请日:2023-12-13

公开(公告)日:2024-04-12

公开(公告)号:CN117873659A

主分类号:G06F9/48

分类号:G06F9/48;G06N3/092;G06N3/084

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于轨迹优化奖励的云计算任务自动调度方法,其涉及AI技术领域,旨在解决1、遗传算法的早熟现象在应用到云计算资源分配场景下仍然存在,当种群进化到中后期时,种群的多样性被破坏,算法的搜索陷入停滞,导致算法福尔斯局部最优解,无法得到全局最优解,早熟现象影响了遗传算法的全局收敛性和计算性能;2、目前的启发式搜索算法在云计算任务调度中的优化目标仅为任务调度时间,没有考虑其他约束,无法解决多目标问题。其技术方案要点是使用强化学习算法进行一个任务批次的调度。达到了提高云服务器的资源利用率、任务完成效率和降低成本的目的,实现了提高响应时间、负载均衡等效果。

主权项:1.一种基于轨迹优化奖励的云计算任务自动调度方法,其特征在于,具体步骤为:S1,获取需要进行调度的一个任务批次K,一个任务批次包含多个任务表示为任务集合K={k1,…,ki,…,kl},每个任务表示为:S2,获取当前数据中心中可用的虚拟机列表,虚拟机VM列表为v={v1,…,vj,…,vm},每个VM实例为:当虚拟机vj满足时,方可执行任务i;S3,为任务调度模块构建深度强化学习模型H并进行网络参数初始化,模型包括两个现实网络,分别是现实Critic网络和现实Actor网络,和两个目标网络,分别是目标Critic网络和目标Actor网络;S4,训练深度强化学习模型,网络训练步骤如下:a、初始化训练次数N,并令n=1,每m个训练间隔后软更新目标网络;b、每一次的训练过程,根据当前的动作概率分布进行动作选择,并执行当前动作an,获得环境反馈奖励Rn,然后将当前训练状态sn和动作an组成状态动作对sn,an输入到现实Critic网络中,网络的输出为当前状态动作对的Qn值,并令n=n+1;c、计算轨迹优化奖励d、将当前轮次的训练数据存入经验回放缓存区;S5,使用最小化损失函数法和随机梯度下降法更新现实Critic网络和现实Actor网络,判断经验回放缓存区中经验条目数,如果条目数量大于N2时,则从经验回放缓存区中随机采样M个样本经验条目,通过最小化损失函数进行现实Critic网络更新,更新函数为: 然后通过随机梯度下降法更新Actor网络,更新公式为: S6,若当前经验回放缓存区中的经验条目个数小于等于N2时,则返回S4中b步骤,否则执行步骤S7;S7,若当前经验条目大于N时,删除最早加入经验回放缓存区的经验条目;S8,以软更新的方式更新目标Actor网络和目标Critic网络;S9,将当前训练次数n与最大训练次数N进行比较,若n≥N,则结束训练,否则返回S4中b步骤;S10,使用训练后的目标网络进行云计算任务自动化调度,将当前时刻t的状态动作对st,at输入到训练后的目标Critic网络中,得到输出值Qt,然后将Qt值输入到目标Actor网络中,得到目标Actor网络的输出at+1,该输出即为下个时刻要执行的任务列表。

全文数据:

权利要求:

百度查询: 天翼云科技有限公司 一种基于轨迹优化奖励的云计算任务自动调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。