【发明授权】基于深度强化学习的二维矩形条带包装方法_华南理工大学_202310259079.9

导航：龙图腾网> 最新专利技术> 基于深度强化学习的二维矩形条带包装方法_华南理工大学_202310259079.9

申请/专利权人：华南理工大学

申请日：2023-03-17

公开（公告）日：2024-04-09

公开（公告）号：CN116198771B

主分类号：B65B15/04

分类号：B65B15/04;B65B57/02;B65B61/06;B65B65/00

优先权：

专利状态码：有效-授权

法律状态：2024.04.09#授权;2023.06.20#实质审查的生效;2023.06.02#公开

摘要：本发明公开了一种基于深度强化学习的二维矩形条带包装方法，该方法考虑二维情况下，将多个矩形对象逐一包装到一个末端开口的条带中，以最小化矩形对象所达到的高度，结合天际线算法将二维矩形条带包装过程建模为马尔可夫决策过程，再通过强化学习方法训练用于二维矩形条带包装的网络模型，最终得到一种最优的包装方案。本发明利用强化学习技术，能够获取多个不同的较优解，不需要人为设计复杂的启发式规则。本发明可以应用于多种物品的包装和运输，同时还可以适应不同的环境和布局。

主权项：1.基于深度强化学习的二维矩形条带包装方法，其特征在于，该方法考虑二维情况下，将多个矩形对象逐一包装到一个末端开口的条带中，以最小化矩形对象所达到的高度，结合天际线算法将二维矩形条带包装过程建模为马尔可夫决策过程，再通过强化学习方法训练用于二维矩形条带包装的网络模型，最终得到一种最优的包装方案；该方法的具体实施包括以下步骤：1通过随机分割矩形的方式生成训练集、验证集和测试集；2结合天际线算法将二维矩形条带包装过程建模为马尔可夫决策过程，并设计用于二维矩形条带包装的网络模型；其中智能体通过观察环境状态、选择动作和获得奖励来学习如何解决问题，具体包括以下步骤：2.1确定状态表示：二维矩形条带包装问题的观测包括已打包矩形和未打包矩形，对其分别进行预处理得到状态表示；已打包矩形的数量随着打包的进行成直线增长，但是对决策有用的信息只有已打包矩形的最外侧边缘信息，因此使用天际线的线段序列表示已打包矩形信息，每一条线段表示为一个向量sj＝sj_x1,sj_x2,sj_y,sj_stripH，其中每一项分别表示线段左端点x坐标、线段左端点x坐标、线段y坐标、条带宽度；网络模型的输入必须是确定的维度，因此对未打包矩形设置最大可见数量，这种方式的优点是操作简单，速度快；每个未打包矩形表示为一个向量ri＝ri_w,ri_h,ri_l,ri_s,ri_d，其中每一项表示矩形的宽度、高度、周长、面积；2.2确定动作表示：二维矩形条带包装问题的动作空间包括选择矩形、选择旋转角度和选择打包位置；为了减小动作空间，矩形考虑不超过40个，旋转角度考虑0度和90度，打包位置考虑最低的天际线线段SL的左右端点处；采用组合动作空间，对剩余矩形进行编号，t时刻执行的动作记为at，at＜40表示选择第at个矩形放置到SL的左端点；40≤at＜80表示选择第at-40个矩形并且旋转90度，放置到SL的右端点；80≤at＜120表示选择第at-80个矩形放置到SL的左端点；120≤at＜160表示选择第at-120个矩形并且旋转90度，放置到SL的右端点；2.3确定奖惩函数：在步骤2.1确定的状态下，采取步骤2.2确定的动作，为了使得条带中包装的矩形对象所达到的高度最小，环境需要给出一个奖惩值，以便对每个状态动作对进行评估，帮助智能体学习如何选择动作，因此设计了如下的奖惩函数rt：其中，uupper为当前的总体利用率上限，如果uupper≤0.66则提前终止打包；swt为动作at产生的条带浪费面积；2.4确定智能体策略函数：为了在连续状态空间中进行决策，将智能体的策略函数设计为一个网络模型，将当前状态作为输入，输出动作概率分布，根据步骤2.3确定的奖惩值计算损失并训练该网络模型，该网络模型分为特征提取、特征融合和决策评估三个部分；特征提取部分由三层全连接网络组成，每层的神经元数量分别为16、32和16，并且每一层后面都接了一个ReLU激活函数；特征融合部分由一层Transformer编码器和一层256个神经元的全连接组成，并接了一个Tanh激活函数；决策评估部分由一个大小为81的输出层组成；3从步骤1生成的训练集中选择一批数据，将其中的矩形逐一打包到对应的条带中，不断收集由状态、动作、奖惩、下一个状态构成的元组数据，将收集到的元组数据输入到步骤2设计的网络模型，并基于TD算法和PolicyGradient算法对网络模型进行训练，根据训练过程中网络模型的性能对奖惩函数权重、学习率和损失函数系数进行调整，从而提高网络模型训练的效率，最终迭代进行至验证集的总奖惩收敛到最大值，得到用于二维矩形条带包装的最优网络模型；4对步骤1生成的测试集进行测试，通过步骤3得到的最优网络模型将待打包的矩形逐一打包到条带中，输出最优的包装方案。

全文数据：

权利要求：

百度查询：华南理工大学基于深度强化学习的二维矩形条带包装方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

下一篇：电子设备_深圳市嘉晋实业有限公司_202322601396.2

相关技术

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种户外交流高压封闭式隔离开关_瑞芯科技(河北雄安)有限公司_202322554260.0

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

一种机柜_珠海冠宇动力电源有限公司_202322495779.6

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质_湖南大学_202111280872.4

联邦学习回归模型损失函数评估方法、装置及电子设备_上海零数众合信息科技有限公司_202410122725.1

一种基于深度学习的多属性融合空气质量预报方法_东南大学_202210299318.9

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

矩形相关技术

一种卧式矩形压力蒸汽灭菌器_合肥市福临农农业有限公司_202322308297.5

一种无插拔力矩形电连接器插座_贵州航天电器股份有限公司_202322485078.4

一种产生高纯度涡旋波的矩形贴片天线阵列_中国人民解放军海军工程大学_202210585336.3

一种聚变堆超汽化矩形翅片结构临界热流密度的计算方法_西安交通大学_202410025422.8

矩形换热通道内超临界压力流体双主涡流场的诱导结构_中国人民解放军国防科技大学_202210249989.4

一种适用于矩形顶管膜袋堵水结构及堵水方法_安徽水安建设集团股份有限公司_202410103228.7

一种下悬式无井架变截面矩形烟囱支撑体系施工方法_中建六局土木工程有限公司_202011229293.2

一种矩形桩成孔设备_重庆建工市政交通工程有限责任公司_202311584448.8

一种矩形顶管机的中继间装置_中铁四局集团有限公司_202322749840.5

矩形顶管触变泥浆减阻与滤失性能测试系统及方法_安徽建筑大学_202410276954.9

带相关技术

智能胎儿监测带_苏州国科医工科技发展(集团)有限公司_201811512047.0

带驱动式自动扶梯_奥的斯电梯公司_202011230592.8

一种压迫止血带_呼伦贝尔市人民医院_202321713211.0

一种自动编带装置_华恒半导体设备(苏州)有限公司_202322741264.X

包装机前输送带_康师傅(昆明)饮品有限公司_202420558907.9

一种市政绿化带_陈玲_202322419997.1

一种新型伞带分条机_广州南欣新材料有限公司_202322733537.6

汽车安全带防尘除尘装置_中国人民解放军陆军军事交通学院汽车士官学校_201711404646.6

带放行机构的滑车组件_永浪集团有限公司_202322537985.9

变压器用铜板带校直装置_广东特变电气股份有限公司_202322440021.2

龙图腾网&IPTOP

【发明授权】基于深度强化学习的二维矩形条带包装方法_华南理工大学_202310259079.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务