买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于P3C-MADDPG算法的多智能体协同追捕对抗方法_中国人民解放军陆军勤务学院_202311093352.1 

申请/专利权人:中国人民解放军陆军勤务学院

申请日:2023-08-28

公开(公告)日:2023-11-28

公开(公告)号:CN117131770A

主分类号:G06F30/27

分类号:G06F30/27;G06N3/045;G06N3/092;G06N3/098;G06F9/50;G06F30/18

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.12.15#实质审查的生效;2023.11.28#公开

摘要:本发明涉及智能体智能决策领域,具体为基于P3C‑MADDPG算法的多智能体协同追捕对抗方法。首先,构建多智能体追逃任务以及智能体运动学模型。然后,提出了P3C‑MADDPG算法,该算法对MADDPG算法进行改进,采用了基于树形结构储存的优先经验回放机制,并设计了3线程并行的Critic网络模型。同时,设计了追逃智能体的状态空间、稀疏奖励与引导式奖励相结合的奖励函数、以及不同加速度的追逃动作空间等训练要素。最后,基于上述训练要素,通过P3C‑MADDPG算法生成策略未知逃逸智能体环境中多智能体协同追捕对抗策略。仿真实验表明,P3C‑MADDPG算法在训练速度上平均提升了41.1%,平均降低Q值6.06%,生成的多智能体协同追捕对抗策略能有效避开障碍物,更加智能地实现对策略未知逃逸智能体的追捕。

主权项:1.基于P3C-MADDPG算法的多智能体协同追捕对抗方法,其特征在于,包括以下步骤:步骤1建立多智能体追逃任务以及智能体运动学模型;步骤2设计三个训练要素,所述训练要素包括追逃智能体的状态空间、稀疏奖励与引导式奖励相结合的奖励函数以及加速度不同的追逃动作空间;步骤3基于P3C-MADDPGP-PER,3C-3线程并行的Critic网络模型算法对追逃智能体的网络模型进行训练,生成策略未知逃逸智能体环境中多智能体协同追捕对抗策略;所述P3C-MADDPG算法为:对MADDPG算法进行改进,采用基于树形结构储存的优先经验回放机制PrioritizedExperienceReplay,用来提高训练速度;同时还设计3线程并行的Critic网络模型,该模型由3个相同的Critic评价网络并行组成,通过对3线程并行Critic网络的输出Q值求平均,从而降低Q值,以提高训练的准确性。

全文数据:

权利要求:

百度查询: 中国人民解放军陆军勤务学院 基于P3C-MADDPG算法的多智能体协同追捕对抗方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术