申请/专利权人:清华大学
申请日:2023-11-03
公开(公告)日:2024-01-16
公开(公告)号:CN117408159A
主分类号:G06F30/27
分类号:G06F30/27;G06N3/092
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.02.02#实质审查的生效;2024.01.16#公开
摘要:本申请涉及一种基于强化学习的多智能体动态追捕任务训练方法及装置,其中,方法包括:获取连续动态任务池中的所有抓捕任务,并输入任务评估器;进而通过任务评估器和动态追捕策略,评估每个追捕任务的性能,并基于性能评估结果和预设捕获率区间,从所有抓捕任务中筛选目标追捕任务,构建目标追捕任务集合;将目标追捕任务集合和连续动态任务池输入任务采样器,获取当前追捕任务训练分布,并通过仿真器根据训练分布生成多种仿真环境,以训练多智能体强化学习算法。由此,解决了现有技术仅研究环境复杂度低的二维追捕任务,且缺少多个追捕者之间的合作性,性能受到任务初始条件的严重影响,或者存在样本效率低、训练时间长、应用局限性较大等问题。
主权项:1.一种基于强化学习的多智能体动态追捕任务训练方法,其特征在于,包括以下步骤:基于预设随机采集策略,获取预设连续动态任务池中的所有抓捕任务,并将所述所有抓捕任务输入至预设的任务评估器中;通过输入抓捕任务后的任务评估器和动态追捕策略,评估每个追捕任务的性能,得到所述每个追捕任务的性能评估结果,并基于所述性能评估结果和预设捕获率区间,从所述所有抓捕任务中筛选至少一个目标追捕任务,并根据所述至少一个目标追捕任务构建目标追捕任务集合;将所述目标追捕任务集合和所述连续动态任务池同时输入到预设的任务采样器,并基于输入所述目标追捕任务集合和所述连续动态任务池后的所述任务采样器,获取当前追捕任务训练分布,并通过预设仿真器根据所述训练分布生成多种仿真环境,以利用所述多种仿真环境训练预设多智能体强化学习算法。
全文数据:
权利要求:
百度查询: 清华大学 基于强化学习的多智能体动态追捕任务训练方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。