【发明公布】基于强化学习的多智能体动态追捕任务训练方法及装置_清华大学_202311459186.2

导航：龙图腾网> 最新专利技术> 基于强化学习的多智能体动态追捕任务训练方法及装置_清华大学_202311459186.2

申请/专利权人：清华大学

申请日：2023-11-03

公开（公告）日：2024-01-16

公开（公告）号：CN117408159A

主分类号：G06F30/27

分类号：G06F30/27;G06N3/092

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.02.02#实质审查的生效;2024.01.16#公开

摘要：本申请涉及一种基于强化学习的多智能体动态追捕任务训练方法及装置，其中，方法包括：获取连续动态任务池中的所有抓捕任务，并输入任务评估器；进而通过任务评估器和动态追捕策略，评估每个追捕任务的性能，并基于性能评估结果和预设捕获率区间，从所有抓捕任务中筛选目标追捕任务，构建目标追捕任务集合；将目标追捕任务集合和连续动态任务池输入任务采样器，获取当前追捕任务训练分布，并通过仿真器根据训练分布生成多种仿真环境，以训练多智能体强化学习算法。由此，解决了现有技术仅研究环境复杂度低的二维追捕任务，且缺少多个追捕者之间的合作性，性能受到任务初始条件的严重影响，或者存在样本效率低、训练时间长、应用局限性较大等问题。

主权项：1.一种基于强化学习的多智能体动态追捕任务训练方法，其特征在于，包括以下步骤：基于预设随机采集策略，获取预设连续动态任务池中的所有抓捕任务，并将所述所有抓捕任务输入至预设的任务评估器中；通过输入抓捕任务后的任务评估器和动态追捕策略，评估每个追捕任务的性能，得到所述每个追捕任务的性能评估结果，并基于所述性能评估结果和预设捕获率区间，从所述所有抓捕任务中筛选至少一个目标追捕任务，并根据所述至少一个目标追捕任务构建目标追捕任务集合；将所述目标追捕任务集合和所述连续动态任务池同时输入到预设的任务采样器，并基于输入所述目标追捕任务集合和所述连续动态任务池后的所述任务采样器，获取当前追捕任务训练分布，并通过预设仿真器根据所述训练分布生成多种仿真环境，以利用所述多种仿真环境训练预设多智能体强化学习算法。

全文数据：

权利要求：

百度查询：清华大学基于强化学习的多智能体动态追捕任务训练方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种外导体压接装置_江苏博之旺自动化设备有限公司_202111235070.1

下一篇：一种焊枪铜线的自动夹扣装置_温州技师学院_201910988267.9

相关技术

一种外导体压接装置_江苏博之旺自动化设备有限公司_202111235070.1

一种焊枪铜线的自动夹扣装置_温州技师学院_201910988267.9

泌尿道菌群检测在女性泌尿道结石诊断中的应用_广东省科学院微生物研究所(广东省微生物分析检测中心)_202111500822.2

一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

光催化装置嵌入沉砂池协同降解辣椒素污水与除砂_山东建筑大学_202111505610.3

一种电石渣煅烧氧化钙粉体循环压球系统及工艺_江苏中圣园科技股份有限公司_202011333705.7

一种蜡样芽孢杆菌YZ-228发酵制剂及其制备方法和应用_吉林农业大学_202310313518.X

一种农产品供应链信息管理系统_河南建设产业投资有限公司_202311393351.9

燃料电池以及燃料电池的制造方法_丰田自动车株式会社_202110209899.8

一种泥水盾构泥水循环系统管路堵塞智能预警方法_郑州轻工业大学_202310490445.1

一种全自动样品混合缩分装置及方法_青岛海关技术中心_201910859073.9

一种适用于热辅助治疗的硝酸2-(4-甲基噻唑-5-基)乙酯盐脑靶向脂质体_山东京卫制药有限公司_202311121383.3

龙图腾网&IPTOP

【发明公布】基于强化学习的多智能体动态追捕任务训练方法及装置_清华大学_202311459186.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务