买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于深度强化学习的信息系统弹性适变策略求解方法_重庆大学_202410036059.X 

申请/专利权人:重庆大学

申请日:2024-01-10

公开(公告)日:2024-04-09

公开(公告)号:CN117852914A

主分类号:G06Q10/0637

分类号:G06Q10/0637;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.26#实质审查的生效;2024.04.09#公开

摘要:本发明涉及一种基于深度强化学习的信息系统弹性适变策略求解方法,属于计算机技术领域。从环境信息系统中提取各功能模块的运行状态特征,构成运行系统状态,同时选择合适的价值函数和状态转移概率,并以此基础,构建系统软件功能模块动态弹性适变的马尔科夫决策模型,进一步,本发明基于Actor‑Critic策略求解系统弹性适变操作策略,完成系统弹性适变操作。信息系统弹性性化适变过程是一个连续的动态适应信息系统模块和等运行状态特征的优化过程。本发明利用深度强化学习在动态优化上的优势,实现信息系统最优适变策略方法求解以使信息系统的总体运行负载和处理效率得到提升,实现信息系统的最优运维。

主权项:1.一种基于深度强化学习的信息系统弹性适变策略求解方法,其特征在于:该方法包括以下步骤:S1:从信息系统各个软件功能模块的日志数据中获取该功能模块的运行特征,确定系统弹性适变过程的马尔科夫决策模型M={S,A,Psa,R}涉及以下要素:S表示信息系统当前状态集合,为构成信息系统各个软件功能模块的运行状态信息,通过对该功能模块的日志信息进行处理后得到;A表示信息系统软件功能模块弹性适变动作集合;该适变动作为对系统各个模块的操作,通过以上操作以此为基础构成了系统弹性适变策略;Psa为系统状态转移概率,即信息系统当前状态经适变动作a∈A转移到下一状态的概率分布情况;R为回报函数,是评价系统软件功能模块弹性适变操作的效果优劣;Rs',a表示状态s'时执行动作a得到的回报;信息系统弹性适变的决策问题描述为:寻找一个策略,使得在信息系统在运行的过程中,执行T次弹性适变动作后累计奖励最大;S2:决策网络训练:针对信息系统模型构建强化学习架构,初始阶段在信息系统模型运行过程中收集日志信息,获取日志数据集,并将其转化为系统输入状态St;评价网络根据每一个状态执行动作获取的奖励对历史状态进行评估,之后根据环境状态选定动作,由评价网络对选定的动作进行评估,并将评估的结果作为动作网络的反馈更新,在不断的迭代学习中改进动作网络的决策能力;深度强化学习方法基于预期回报来评价各动作的优劣;通过使预期回报最大的策略选择信息系统弹性适变动作序列,得到弹性适变的最优策略;S3:针对S3中的强化学习架构,搭建Actor-Critic架构进行决策网络的模型建立;Actor网络完成资源调度行为决策,Critic网络实现对Actor执行动作后状态评估,指导Actor网络下一阶段的动作;首先采集信息系统的初始状态St,并将其送入Critic评价网络,根据评价网络产生的评价输出奖励Rt到Actor网络,Actor网络根据奖励Rt选择适当的弹性适变动作作用与信息系统;如此循环往复直至信息系统达到预设的目标,即网络训练完成,深度强化学习过程完毕;S4:实时弹性适变决策应用;根据决策网络训练过程中得到的动作网络和评估网络,在信息系统日志环境下获取每一时刻的运行状态特征及信息系统的状态特征,并将其作为网络输入,由网络输出下一个时刻的弹性适变方案,统计全时刻输出制定信息系统设备全时刻的弹性适变动作方案;以使信息系统的总体运行负载和处理效率得到提升,实现信息系统的最优运维。

全文数据:

权利要求:

百度查询: 重庆大学 一种基于深度强化学习的信息系统弹性适变策略求解方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。