【发明授权】融合强化学习和差分进化的产品变更路径多目标优选方法_中国矿业大学_202310380037.0

导航：龙图腾网> 最新专利技术> 融合强化学习和差分进化的产品变更路径多目标优选方法_中国矿业大学_202310380037.0

申请/专利权人：中国矿业大学

申请日：2023-04-11

公开（公告）日：2024-04-02

公开（公告）号：CN116451577B

主分类号：G06F30/27

分类号：G06F30/27;G06N3/045;G06N3/092;G06N3/086;G06Q10/047;G06F111/06

优先权：

专利状态码：有效-授权

法律状态：2024.04.02#授权;2023.08.04#实质审查的生效;2023.07.18#公开

摘要：本发明公开了融合强化学习和差分进化的产品变更路径多目标优选方法，包括以下步骤：建立复杂产品网络模型，表明设计变更在产品网络模型中的传播过程；建立设计变更传播路径的多目标优化模型；利用双深度Q‑网络DoubleDeepQ‑Network，DDQN帮助种群在不同阶段选择适合的进化策略，建立强化学习引导的差分进化算法Differentialevolution，DE即DDQN‑DE算法，进行多目标优化模型的求解。本发明采用上述的产品变更路径多目标优选方法，当产品零件发生变更时，可以精准地找到一个变更成本、变更工期、产品综合性能影响较小的变更方案，解决现有方法中收敛速度慢、易于局部收敛等问题。

主权项：1.融合强化学习和差分进化的产品变更路径多目标优选方法，其特征在于，包括以下步骤：S1、建立复杂产品网络模型，表明设计变更在产品网络模型中的传播过程；S2、建立设计变更传播路径的多目标优化模型；S3、利用双深度Q-网络帮助种群在不同阶段选择适合的进化策略，建立强化学习引导的差分进化算法即DDQN-DE算法，进行多目标优化模型的求解；多目标优化模型的求解包括双深度Q-网络的实现和强化学习动作模块的实现；其中，双深度Q-网络的实现包括如下步骤：a、通过tensorflow构建双深度Q网络，包括主Q-网络以及目标Q-网络，主Q-网络以及目标Q-网络均由两层DNN组成；b、分别实现经验池、动作选择机制、双深度Q-网络更新机制；其中，经验池是用来存储强化学习每次执行结束的样本，样本由四元组组成包括强化学习在当前时刻的状态、动作、奖励值以及下一时刻的状态，在实现经验池时，通过调用numpy中的hstack实现；动作选择机制采用贪心策略；双深度Q-网络的更新机制通过如下公式不断更新：；式中，表示DDQN的目标函数，α是学习率，表示新信息覆盖旧信息的比率；和分别是主Q-网络和目标Q-网络在当前时刻的参数，表示强化学习在当前时刻的状态，表示动作，表示奖励值，表示下一时刻的状态；强化学习动作模块的实现包括如下步骤：a、在不同阶段采取不同的进化策略，使用三种不同的差分进化策略，包括、和；其中，可以提升种群的局部搜索能力，可以使种群获得较好的全局探索能力，有利于提升种群的快速收敛；由此，DDQN的动作空间可以表示为：；b、在传统差分进化算法中，个体经过差分进化策略后，即个体执行加法、减法和乘法运算后，会出现小数、重复及缺失的元素，无法直接应用于产品设计变更路径问题中；因此，提出了基于整数编码且重新定义算术运算符的差分进化策略；以为例，具体定义如下：；式中，表示在次迭代时，生成的第个新个体；、、表示在次迭代时，从种群中随机选择的三个个体；⊖的执行规则为：首先，创建差异信息存储列表；接着，获取主导个体，即求出个体、中的非支配解，如果个体之间相互支配则从个体、中随机选择主导个体；最后，将主导个体和辅助个体进行比较，找出两者不同的差异分量，将分量存储到中；和的执行规则为：首先，根据中的分量个数生成相应数量的随机数；接着，将依次生成的与缩放因子进行比较，如果时，将中的分量替换个体相应位置的分量，从而生成新个体；最后，根据上述执行规则生成新的子代个体。

全文数据：

权利要求：

百度查询：中国矿业大学融合强化学习和差分进化的产品变更路径多目标优选方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

下一篇：一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

相关技术

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

再生废液处理系统_山东荣信集团有限公司_202322260404.1

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

进化相关技术

一种基于优化差分进化算法的电池参数辨识方法_东方电气集团科学技术研究院有限公司_202311699043.9

一种基于进化策略生成细微扰动的黑盒决策攻击方法_南京航空航天大学_202410050413.4

一种基于支持向量机和进化计算的过采样方法_大连理工大学_202410001797.0

一种基于差分进化算法的Buck转换器电感参数辨识方法_河海大学_202211230857.3

基于多种群交替进化神经结构搜索的图像识别方法及系统_湘潭大学_202410095592.3

一种基于多种群进化算法的带时间窗的车辆路径规划方法_安徽大学_202111614801.3

一种基于聚类与进化深度学习的交通流预测方法_淮阴工学院_202311849226.4

基于多目标进化的电力通信耦合网络鲁棒性优化算法_重庆邮电大学_202410061948.1

吉氏芽孢杆菌进化枝丝氨酸蛋白酶_丹尼斯科美国公司_201780086912.7

基于进化多任务优化的柔性作业车间调度方法_西安理工大学_202311632953.5

变更相关技术

一种变更风险评估方法、设备及存储介质_浙江大学_202210459479.X

一种试验变更控制方法、装置、设备及介质_成都飞机工业(集团)有限责任公司_202211141032.4

一种低功耗的电路设计变更处理方法、系统和装置_奇捷科技(深圳)有限公司_202311801524.6

用于确定自动驾驶车辆的车道变更路径的设备及其方法_现代自动车株式会社_202010349266.2

数据变更方法、数据再现方法、程序以及数据变更装置_雅马哈株式会社_202180102029.9

部分带宽变更方法及装置_大唐移动通信设备有限公司_202211217054.4

基于数据湖的表结构变更方法、系统、设备和存储介质_广州巨杉软件开发有限公司_202311792708.0

基于eUICC的码号变更方法、SM-SR及可读存储介质_中国联合网络通信集团有限公司_202211623468.7

配置变更方法、装置、设备和存储介质_腾讯科技(深圳)有限公司_202410046199.5

一种非金融交易模版动态变更的实现方法_上海通联金融服务有限公司_202311651419.9

产品相关技术

LED灯管及LED产品_东莞市欧思科光电科技有限公司_202322511097.X

一种家电产品连接到产品服务端的方法_浙江绍兴苏泊尔生活电器有限公司_202210345758.3

熵服务的方法及相关产品_华为技术有限公司_202180100877.6

电镀产品自动上料装置_上海华友金裕微电子有限公司_202322726372.X

陶瓷产品精磨设备_江苏宜翔陶瓷科技有限公司_202322711089.X

服务运行方法及相关产品_OPPO广东移动通信有限公司_202211291393.7

一种可调式农产品晾晒筛_洋县树堂农业发展有限公司_202322341278.2

一种SR组件及其组装产品_东莞市精亿祥科技有限公司_202322584941.1

一种包膜产品检测设备_苏州苏映视图像软件科技有限公司_202322525694.8

一种产品左右防混装装置_楷叶(南京)科技有限公司_202322586055.2

龙图腾网&IPTOP

【发明授权】融合强化学习和差分进化的产品变更路径多目标优选方法_中国矿业大学_202310380037.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务