买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于DQN的信息系统弹性适变策略求解方法_重庆大学_202410036060.2 

申请/专利权人:重庆大学

申请日:2024-01-10

公开(公告)日:2024-04-09

公开(公告)号:CN117852915A

主分类号:G06Q10/0637

分类号:G06Q10/0637;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.26#实质审查的生效;2024.04.09#公开

摘要:本发明涉及一种基于DQN的信息系统弹性适变策略求解方法,属于计算机技术领域。本方法从环境软件信息系统中提取系统各功能模块的运行状态特征,构成运行系统状态,同时选择合适的价值函数和状态转移概率,构建系统软件功能模块动态弹性适变的马尔科夫决策模型,进一步,本发明基于Q最大策略求解系统弹性适变操作策略,完成系统弹性适变操作。软件信息系统弹性性化适变过程是一个连续的动态适应软件信息系统软件功能模块等运行状态特征的优化过程。本发明利用深度强化学习在动态优化上的优势,实现软件信息系统最优适变策略方法求解,以使信息系统的总体运行负载和处理效率得到提升,实现信息系统的最优运维。

主权项:1.一种基于DQN的信息系统弹性适变策略求解方法,其特征在于:该方法包括以下步骤:S1:从信息系统各个软件功能模块的日志数据中该模块的运行特征,确定系统弹性适变过程的马尔科夫决策模型M={S,A,Psa,R}涉及以下要素:S表示信息系统当前状态集合,为构成软件信息系统各个软件功能模块的运行状态信息,通过对该模块的日志信息进行处理后得到;A表示信息系统软件功能模块弹性适变动作集合;该适变动作为对系统各个模块的操作,通过以上操作以此为基础构成了系统弹性适变策略;Psa为系统状态转移概率,即信息系统当前状态经适变动作a∈A转移到下一状态的概率分布情况;R为回报函数,是评价系统软件功能模块弹性适变操作的效果优劣;Rs',a表示状态s'时执行动作a得到的回报;S2:根据S1中确定的软件信息系统弹性适变过程的马尔科夫决策模型中的回报函数R,确定弹性适变动作序列的Q值:Qs,a=EπRt|st,at=Eπrt+1+γrt+2+γ2rt+2+…|st,at以反映软件信息系统各个模块的状态、信息系统弹性适变动作组合的回报值期望;S3:不断根据信息系统运行场景和状态,执行相应动作a,使Qs,a值最大,以上动作序列即为系统动态适变策略;Qs,a值是对信息系统状态以及弹性适变动作的累积评估,也即根据信息系统各个模块的状态、信息系统弹性适变动作组合的回报值期望;根据软件信息系统每一个时刻的状态,计算不同适变动作对应的Q值,构建Q值表,以便于通过Q值表由信息系统状态确定系统弹性适变策略;S4:针对S3中的系统弹性适变策略,利用神经网络代替S3中算法中的动作值函数Q值表,对Q值的计算过程进行拟合,计算不同动作对应的Q值;DQN深度强化学习方法基于预期回报来评价各动作的优劣;通过使预期回报最大的策略选择信息系统弹性适变动作序列,得到弹性适变的最优策略;S5:S4中用于软件信息系统弹性适变的DQN深度强化学习方法包括训练和计算两个过程;其中训练过程为:首先利用信息系统软件功能模块日志信息得到特征,初始策略神经网络和目标神经网络初始状态值,循环生成经验数据,并存入经验回放池;即系统初始状态s通过策略网络得到该状态s下不同动作的Q值,基于Q最大策略或随机策略选取对应的动作a,该动作作用于信息系统软件功能模块弹性适变,包括启动或者停止相应功能模块,信息系统进入一个新的状态,同时返回回报值r;循环得到若干组经验值;然后,将经验池数据中的状态值S按照一定策略输入策略网络,得到策略网络动作值Q,用对应的经验数据输入目标网络得到下一时刻目标网络动作值Q值,将两个网络输出的差按照梯度下降策略训练策略网络,并早一段时间后更新目标网络;循环直至训练轮数或平均回报性能指标达到一定阈值,完成训练,此时得到的策略网络就是用于求解弹性适变的策略网络;计算过程为:在信息系统软件功能模块的弹性适变中,利用训练好的策略网络,实现信息系统进行弹性适变操作。

全文数据:

权利要求:

百度查询: 重庆大学 一种基于DQN的信息系统弹性适变策略求解方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。