申请/专利权人:中国科学院深圳先进技术研究院
申请日:2020-12-10
公开(公告)日:2024-03-19
公开(公告)号:CN112396501B
主分类号:G06Q30/0601
分类号:G06Q30/0601;G06Q50/40;G06N20/00
优先权:
专利状态码:有效-授权
法律状态:2024.03.19#授权;2021.03.12#实质审查的生效;2021.02.23#公开
摘要:本发明涉及互联网信息技术领域,特别涉及一种基于交互式强化学习的订单分派方法及系统;本发明在自主学习过程中引入人机交互,融合人类演示、干扰、评价的人机交互模式,从人类演示中学习,通过人类演示的真实数据,能够更好地模拟真实的订单分派场景;从人类干扰中学习,当自主学习过程中出现错误动作时,控制智能体的性能,避免出现错误结果;从人类评估中学习,通过人工评价自主学习结果,使学习过程向更好的订单分派策略方向偏移,加快学习过程,从而得到最优的订单分派策略。
主权项:1.一种基于交互式强化学习的订单分派方法,其特征在于,包括如下步骤:步骤S1、对订单分派任务建模进行模仿训练;步骤S2、在状态和动作的序列方面提供模仿人类行为的订单分派的演示实例,通过自主学习模仿人类演示的订单分派策略行为;步骤S3、在进入灾难性状态或人类不满意的错误状态中,通过自主学习模仿人类干预的行为;步骤S4、通过自主学习模仿人类的评价反馈的行为;步骤S5、进入纯强化学习阶段进行训练,从而得到最优的订单分派策略;在步骤S2内,当产生了人类演示数据时,从人类的演示中收集订单分派的演示记录,使用高斯回归训练该人类演示数据,从而训练出订单分派策略;在步骤S3内,经过从步骤S2训练出的订单分派策略执行订单分派任务,当产生人类干扰数据时,收集人类干扰订单分派的动作数据,按该动作数据改变执行订单分派的动作,从而训练出新的订单分派策略;步骤S4内,经过从步骤S3训练出的订单分派策略执行订单分派任务,当产生人类评价数据时,收集人类的评价数据,通过奖励信号评价订单分派任务的动作,从而训练出新的订单分派策略。
全文数据:
权利要求:
百度查询: 中国科学院深圳先进技术研究院 一种基于交互式强化学习的订单分派方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。