买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于深度强化学习的二维矩形条带包装方法_华南理工大学_202310259079.9 

申请/专利权人:华南理工大学

申请日:2023-03-17

公开(公告)日:2024-04-09

公开(公告)号:CN116198771B

主分类号:B65B15/04

分类号:B65B15/04;B65B57/02;B65B61/06;B65B65/00

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2023.06.20#实质审查的生效;2023.06.02#公开

摘要:本发明公开了一种基于深度强化学习的二维矩形条带包装方法,该方法考虑二维情况下,将多个矩形对象逐一包装到一个末端开口的条带中,以最小化矩形对象所达到的高度,结合天际线算法将二维矩形条带包装过程建模为马尔可夫决策过程,再通过强化学习方法训练用于二维矩形条带包装的网络模型,最终得到一种最优的包装方案。本发明利用强化学习技术,能够获取多个不同的较优解,不需要人为设计复杂的启发式规则。本发明可以应用于多种物品的包装和运输,同时还可以适应不同的环境和布局。

主权项:1.基于深度强化学习的二维矩形条带包装方法,其特征在于,该方法考虑二维情况下,将多个矩形对象逐一包装到一个末端开口的条带中,以最小化矩形对象所达到的高度,结合天际线算法将二维矩形条带包装过程建模为马尔可夫决策过程,再通过强化学习方法训练用于二维矩形条带包装的网络模型,最终得到一种最优的包装方案;该方法的具体实施包括以下步骤:1通过随机分割矩形的方式生成训练集、验证集和测试集;2结合天际线算法将二维矩形条带包装过程建模为马尔可夫决策过程,并设计用于二维矩形条带包装的网络模型;其中智能体通过观察环境状态、选择动作和获得奖励来学习如何解决问题,具体包括以下步骤:2.1确定状态表示:二维矩形条带包装问题的观测包括已打包矩形和未打包矩形,对其分别进行预处理得到状态表示;已打包矩形的数量随着打包的进行成直线增长,但是对决策有用的信息只有已打包矩形的最外侧边缘信息,因此使用天际线的线段序列表示已打包矩形信息,每一条线段表示为一个向量sj=sj_x1,sj_x2,sj_y,sj_stripH,其中每一项分别表示线段左端点x坐标、线段左端点x坐标、线段y坐标、条带宽度;网络模型的输入必须是确定的维度,因此对未打包矩形设置最大可见数量,这种方式的优点是操作简单,速度快;每个未打包矩形表示为一个向量ri=ri_w,ri_h,ri_l,ri_s,ri_d,其中每一项表示矩形的宽度、高度、周长、面积;2.2确定动作表示:二维矩形条带包装问题的动作空间包括选择矩形、选择旋转角度和选择打包位置;为了减小动作空间,矩形考虑不超过40个,旋转角度考虑0度和90度,打包位置考虑最低的天际线线段SL的左右端点处;采用组合动作空间,对剩余矩形进行编号,t时刻执行的动作记为at,at<40表示选择第at个矩形放置到SL的左端点;40≤at<80表示选择第at-40个矩形并且旋转90度,放置到SL的右端点;80≤at<120表示选择第at-80个矩形放置到SL的左端点;120≤at<160表示选择第at-120个矩形并且旋转90度,放置到SL的右端点;2.3确定奖惩函数:在步骤2.1确定的状态下,采取步骤2.2确定的动作,为了使得条带中包装的矩形对象所达到的高度最小,环境需要给出一个奖惩值,以便对每个状态动作对进行评估,帮助智能体学习如何选择动作,因此设计了如下的奖惩函数rt: 其中,uupper为当前的总体利用率上限,如果uupper≤0.66则提前终止打包;swt为动作at产生的条带浪费面积;2.4确定智能体策略函数:为了在连续状态空间中进行决策,将智能体的策略函数设计为一个网络模型,将当前状态作为输入,输出动作概率分布,根据步骤2.3确定的奖惩值计算损失并训练该网络模型,该网络模型分为特征提取、特征融合和决策评估三个部分;特征提取部分由三层全连接网络组成,每层的神经元数量分别为16、32和16,并且每一层后面都接了一个ReLU激活函数;特征融合部分由一层Transformer编码器和一层256个神经元的全连接组成,并接了一个Tanh激活函数;决策评估部分由一个大小为81的输出层组成;3从步骤1生成的训练集中选择一批数据,将其中的矩形逐一打包到对应的条带中,不断收集由状态、动作、奖惩、下一个状态构成的元组数据,将收集到的元组数据输入到步骤2设计的网络模型,并基于TD算法和PolicyGradient算法对网络模型进行训练,根据训练过程中网络模型的性能对奖惩函数权重、学习率和损失函数系数进行调整,从而提高网络模型训练的效率,最终迭代进行至验证集的总奖惩收敛到最大值,得到用于二维矩形条带包装的最优网络模型;4对步骤1生成的测试集进行测试,通过步骤3得到的最优网络模型将待打包的矩形逐一打包到条带中,输出最优的包装方案。

全文数据:

权利要求:

百度查询: 华南理工大学 基于深度强化学习的二维矩形条带包装方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。