买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于多智能体深度强化学习的分布式混合流水车间调度方法_哈尔滨工业大学_202410074533.8 

申请/专利权人:哈尔滨工业大学

申请日:2024-01-18

公开(公告)日:2024-04-16

公开(公告)号:CN117891220A

主分类号:G05B19/418

分类号:G05B19/418

优先权:

专利状态码:在审-公开

法律状态:2024.04.16#公开

摘要:一种基于多智能体深度强化学习的分布式混合流水车间调度方法,属于制造生产车间的调度排产技术领域,本发明为解决分布式混合流水车间调度的技术普遍存在响应速度慢、求解效率不高的问题。本发明对于以最大完工时间最小和总能耗最小为优化目标的分布式混合流水车间调度问题,该方法首先将各机器作为智能体搭建多智能体神经网络模型,随后使用模型对大量分布式混合流水生产算例进行计算求解,并使用经验库对训练过程中动作、奖励和状态变化情况进行保存,再通过对经验库进行随机采样对各神经网络进行训练,训练过程中使用验证算例集对模型进行检验,最后使用完成训练的模型对分布式混合流水车间调度问题进行求解。

主权项:1.一种基于多智能体深度强化学习的分布式混合流水车间调度方法,其特征在于,该方法包括以下步骤:步骤S1:初始化多智能体,并为各智能体搭建神经网络;步骤S2:初始化神经网络参数、优化器,初始化样本回放集合;步骤S3:对神经网络进行训练,训练网络的步骤依次为:选择一个分布式混合流水车间调度算例并读取其信息的步骤;将当前机器的生产状态输入决策网络得到决策网络输出,将工件生产信息输入评价网络得到工件特征输出的步骤;通过对比决策网络输出和工件特征输出为各智能体选择动作的步骤;将当前生产状态和各智能体采取的动作输入评价网络得到评价网络输出的步骤;各智能体执行所选动作并更新生产状态的步骤;计算各智能体获得的奖励值,并进行样本储存的步骤;根据评价网络输出计算决策网络的损失函数值并更新决策网络的参数,根据各智能体的奖励值计算评价网络的损失函数值并更新评价网络的参数的步骤;对目标决策网络和目标评价网络的参数进行软更新的步骤;步骤S4:判断神经网络训练代数是否满足步骤S2中初始化参数所给出的终止条件,是,则执行步骤S5;否,则返回执行步骤S3;步骤S5:使用经过训练的神经网络对分布式混合流水车间调度问题求解,对所得调度方案进行解码,得到排产甘特图。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 一种基于多智能体深度强化学习的分布式混合流水车间调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。