【发明授权】一种基于交互式强化学习的订单分派方法及系统_中国科学院深圳先进技术研究院_202011432387.X

申请/专利权人：中国科学院深圳先进技术研究院

申请日：2020-12-10

公开（公告）日：2024-03-19

公开（公告）号：CN112396501B

主分类号：G06Q30/0601

分类号：G06Q30/0601;G06Q50/40;G06N20/00

优先权：

专利状态码：有效-授权

法律状态：2024.03.19#授权;2021.03.12#实质审查的生效;2021.02.23#公开

摘要：本发明涉及互联网信息技术领域，特别涉及一种基于交互式强化学习的订单分派方法及系统；本发明在自主学习过程中引入人机交互，融合人类演示、干扰、评价的人机交互模式，从人类演示中学习，通过人类演示的真实数据，能够更好地模拟真实的订单分派场景；从人类干扰中学习，当自主学习过程中出现错误动作时，控制智能体的性能，避免出现错误结果；从人类评估中学习，通过人工评价自主学习结果，使学习过程向更好的订单分派策略方向偏移，加快学习过程，从而得到最优的订单分派策略。

主权项：1.一种基于交互式强化学习的订单分派方法，其特征在于，包括如下步骤：步骤S1、对订单分派任务建模进行模仿训练；步骤S2、在状态和动作的序列方面提供模仿人类行为的订单分派的演示实例，通过自主学习模仿人类演示的订单分派策略行为；步骤S3、在进入灾难性状态或人类不满意的错误状态中，通过自主学习模仿人类干预的行为；步骤S4、通过自主学习模仿人类的评价反馈的行为；步骤S5、进入纯强化学习阶段进行训练，从而得到最优的订单分派策略；在步骤S2内，当产生了人类演示数据时，从人类的演示中收集订单分派的演示记录，使用高斯回归训练该人类演示数据，从而训练出订单分派策略；在步骤S3内，经过从步骤S2训练出的订单分派策略执行订单分派任务，当产生人类干扰数据时，收集人类干扰订单分派的动作数据，按该动作数据改变执行订单分派的动作，从而训练出新的订单分派策略；步骤S4内，经过从步骤S3训练出的订单分派策略执行订单分派任务，当产生人类评价数据时，收集人类的评价数据，通过奖励信号评价订单分派任务的动作，从而训练出新的订单分派策略。

全文数据：

权利要求：

百度查询：中国科学院深圳先进技术研究院一种基于交互式强化学习的订单分派方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：燃料电池以及燃料电池的制造方法_丰田自动车株式会社_202110209899.8

下一篇：一种沉香GC-MS指纹图谱的构建方法_莆田海关综合技术服务中心_202111293274.0

相关技术

燃料电池以及燃料电池的制造方法_丰田自动车株式会社_202110209899.8

一种沉香GC-MS指纹图谱的构建方法_莆田海关综合技术服务中心_202111293274.0

一种泥水盾构泥水循环系统管路堵塞智能预警方法_郑州轻工业大学_202310490445.1

一种外导体压接装置_江苏博之旺自动化设备有限公司_202111235070.1

一种对文言文中缺失文字的补全方法_丁杨_202311025114.7

一种风机通风量检测方法及装置_北京农业信息技术研究中心_202110665511.5

一种基于数字孪生的加工过程自适应控制方法_东华大学_202111238057.1

一种产丙酸的工程益生菌的构建与应用_天津大学_202310196065.7

移动式组合盐水分离系统_大连盐化集团有限公司_202111204431.6

一种电石渣煅烧氧化钙粉体循环压球系统及工艺_江苏中圣园科技股份有限公司_202011333705.7

车载电动轮椅装载装置_洛阳和合电子科技有限公司_202111539605.4

一种直径与中继协作的信号空间分集传输方法_山东交通学院_202110011021.3

龙图腾网&IPTOP

【发明授权】一种基于交互式强化学习的订单分派方法及系统_中国科学院深圳先进技术研究院_202011432387.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务