买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】融合强化学习和差分进化的产品变更路径多目标优选方法_中国矿业大学_202310380037.0 

申请/专利权人:中国矿业大学

申请日:2023-04-11

公开(公告)日:2024-04-02

公开(公告)号:CN116451577B

主分类号:G06F30/27

分类号:G06F30/27;G06N3/045;G06N3/092;G06N3/086;G06Q10/047;G06F111/06

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2023.08.04#实质审查的生效;2023.07.18#公开

摘要:本发明公开了融合强化学习和差分进化的产品变更路径多目标优选方法,包括以下步骤:建立复杂产品网络模型,表明设计变更在产品网络模型中的传播过程;建立设计变更传播路径的多目标优化模型;利用双深度Q‑网络DoubleDeepQ‑Network,DDQN帮助种群在不同阶段选择适合的进化策略,建立强化学习引导的差分进化算法Differentialevolution,DE即DDQN‑DE算法,进行多目标优化模型的求解。本发明采用上述的产品变更路径多目标优选方法,当产品零件发生变更时,可以精准地找到一个变更成本、变更工期、产品综合性能影响较小的变更方案,解决现有方法中收敛速度慢、易于局部收敛等问题。

主权项:1.融合强化学习和差分进化的产品变更路径多目标优选方法,其特征在于,包括以下步骤:S1、建立复杂产品网络模型,表明设计变更在产品网络模型中的传播过程;S2、建立设计变更传播路径的多目标优化模型;S3、利用双深度Q-网络帮助种群在不同阶段选择适合的进化策略,建立强化学习引导的差分进化算法即DDQN-DE算法,进行多目标优化模型的求解;多目标优化模型的求解包括双深度Q-网络的实现和强化学习动作模块的实现;其中,双深度Q-网络的实现包括如下步骤:a、通过tensorflow构建双深度Q网络,包括主Q-网络以及目标Q-网络,主Q-网络以及目标Q-网络均由两层DNN组成;b、分别实现经验池、动作选择机制、双深度Q-网络更新机制;其中,经验池是用来存储强化学习每次执行结束的样本,样本由四元组组成包括强化学习在当前时刻的状态、动作、奖励值以及下一时刻的状态,在实现经验池时,通过调用numpy中的hstack实现;动作选择机制采用贪心策略;双深度Q-网络的更新机制通过如下公式不断更新: ;式中,表示DDQN的目标函数,α是学习率,表示新信息覆盖旧信息的比率;和分别是主Q-网络和目标Q-网络在当前时刻的参数,表示强化学习在当前时刻的状态,表示动作,表示奖励值,表示下一时刻的状态;强化学习动作模块的实现包括如下步骤:a、在不同阶段采取不同的进化策略,使用三种不同的差分进化策略,包括、和;其中,可以提升种群的局部搜索能力,可以使种群获得较好的全局探索能力,有利于提升种群的快速收敛;由此,DDQN的动作空间可以表示为: ;b、在传统差分进化算法中,个体经过差分进化策略后,即个体执行加法、减法和乘法运算后,会出现小数、重复及缺失的元素,无法直接应用于产品设计变更路径问题中;因此,提出了基于整数编码且重新定义算术运算符的差分进化策略;以为例,具体定义如下: ;式中,表示在次迭代时,生成的第个新个体;、、表示在次迭代时,从种群中随机选择的三个个体;⊖的执行规则为:首先,创建差异信息存储列表;接着,获取主导个体,即求出个体、中的非支配解,如果个体之间相互支配则从个体、中随机选择主导个体;最后,将主导个体和辅助个体进行比较,找出两者不同的差异分量,将分量存储到中;和的执行规则为:首先,根据中的分量个数生成相应数量的随机数;接着,将依次生成的与缩放因子进行比较,如果时,将中的分量替换个体相应位置的分量,从而生成新个体;最后,根据上述执行规则生成新的子代个体。

全文数据:

权利要求:

百度查询: 中国矿业大学 融合强化学习和差分进化的产品变更路径多目标优选方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。