买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于交互式强化学习的订单分派方法及系统_中国科学院深圳先进技术研究院_202011432387.X 

申请/专利权人:中国科学院深圳先进技术研究院

申请日:2020-12-10

公开(公告)日:2024-03-19

公开(公告)号:CN112396501B

主分类号:G06Q30/0601

分类号:G06Q30/0601;G06Q50/40;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2021.03.12#实质审查的生效;2021.02.23#公开

摘要:本发明涉及互联网信息技术领域,特别涉及一种基于交互式强化学习的订单分派方法及系统;本发明在自主学习过程中引入人机交互,融合人类演示、干扰、评价的人机交互模式,从人类演示中学习,通过人类演示的真实数据,能够更好地模拟真实的订单分派场景;从人类干扰中学习,当自主学习过程中出现错误动作时,控制智能体的性能,避免出现错误结果;从人类评估中学习,通过人工评价自主学习结果,使学习过程向更好的订单分派策略方向偏移,加快学习过程,从而得到最优的订单分派策略。

主权项:1.一种基于交互式强化学习的订单分派方法,其特征在于,包括如下步骤:步骤S1、对订单分派任务建模进行模仿训练;步骤S2、在状态和动作的序列方面提供模仿人类行为的订单分派的演示实例,通过自主学习模仿人类演示的订单分派策略行为;步骤S3、在进入灾难性状态或人类不满意的错误状态中,通过自主学习模仿人类干预的行为;步骤S4、通过自主学习模仿人类的评价反馈的行为;步骤S5、进入纯强化学习阶段进行训练,从而得到最优的订单分派策略;在步骤S2内,当产生了人类演示数据时,从人类的演示中收集订单分派的演示记录,使用高斯回归训练该人类演示数据,从而训练出订单分派策略;在步骤S3内,经过从步骤S2训练出的订单分派策略执行订单分派任务,当产生人类干扰数据时,收集人类干扰订单分派的动作数据,按该动作数据改变执行订单分派的动作,从而训练出新的订单分派策略;步骤S4内,经过从步骤S3训练出的订单分派策略执行订单分派任务,当产生人类评价数据时,收集人类的评价数据,通过奖励信号评价订单分派任务的动作,从而训练出新的订单分派策略。

全文数据:

权利要求:

百度查询: 中国科学院深圳先进技术研究院 一种基于交互式强化学习的订单分派方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。