【发明公布】面向群智夺旗博弈的深度强化学习方法和系统_华东理工大学_202211301852.5

导航：龙图腾网> 最新专利技术> 面向群智夺旗博弈的深度强化学习方法和系统_华东理工大学_202211301852.5

申请/专利权人：华东理工大学

申请日：2022-10-24

公开（公告）日：2023-01-20

公开（公告）号：CN115631165A

主分类号：G06T7/00

分类号：G06T7/00;G06N3/0464;G06N3/08

优先权：

专利状态码：在审-实质审查的生效

法律状态：2023.02.14#实质审查的生效;2023.01.20#公开

摘要：本发明公开了一种面向群智夺旗博弈的深度强化学习方法和系统，解决不完美信息条件下外部竞争、内部合作的群智路径规划与夺旗的问题。具体而言，首先基于卷积神经网络的分通道提取图片特征；然后，基于图注意力网络根据自身观测信息与接收到的队友观测信息，定量确定不完美信息条件下各智能体间的竞合关系，使得智能体在决策时，充分考虑其他智能体的状态；最后，根据对于场上不同智能体的注意力值，辅助多智能体双重决斗深度Q网络实现多智能体在二维迷宫环境中的路径规划与自主导航，优化群智夺旗策略，以实现快速、精准地二对二夺旗。

主权项：1.一种面向群智夺旗博弈的深度强化学习方法，其特征在于，方法包括：步骤1：将复杂战场环境抽象为包括多个智能体在内的二维迷宫仿真环境；步骤2：基于卷积神经网络分通道提取输入图像的视觉特征；步骤3：使用强化学习双重决斗深度Q网络分别为分队的智能体初始化对应的网络；步骤4：根据群智夺旗任务目标构造奖励函数，根据由战场环境抽象出的夺旗规则，设置需要达到的目标；步骤5：在双重决斗深度Q网络结构中加入图注意力网络；步骤6：设置最大迭代轮次；步骤7：根据智能体在该时刻的观测信息和与队友间的通讯信息，计算每一步各智能体间的注意力值，智能体根据注意力值选择偏向进攻防守的动作；步骤8：根据选取的奖励函数执行动作，获取经验回放四元组；步骤9：获取新的环境部分观测，更新经验回放四元组，计算双重决斗深度Q网络目标值；步骤10：反复执行步骤7-9，更新双重决斗深度Q网络，直至迭代次数达到最大迭代次数，实现迷宫环境下的群智夺旗博弈。

全文数据：

权利要求：

百度查询：华东理工大学面向群智夺旗博弈的深度强化学习方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种双级节能水冷式平衡系统_麦克斯流体科技(江苏)有限公司_202210852648.6

下一篇：调光面板及其制备方法、调光器件及系统、车辆_浙江极氪智能科技有限公司_202211153495.2

相关技术

一种双级节能水冷式平衡系统_麦克斯流体科技(江苏)有限公司_202210852648.6

调光面板及其制备方法、调光器件及系统、车辆_浙江极氪智能科技有限公司_202211153495.2

一种全自动印刷品检测机_广东国金智能科技有限公司_202210012903.6

一种滚筒式壁纸自动切割的设备_金华市海洋包装有限公司_202111415330.3

一种发动机扭矩控制方法、装置及车辆_长城汽车股份有限公司_202111257306.1

一种控制阀_浙江三花商用制冷有限公司_201910870052.7

一种核素治疗后使用的自动水化治疗系统_中国人民解放军空军军医大学_202111466443.6

一种视频检测方法及系统_湖南获课软件开发有限公司_201910997169.1

非激活态UE进行状态转换方法和用户终端及网络侧设备_大唐移动通信设备有限公司_202010256391.9

一种抗旋转攻击的矢量地理数据数字水印方法_金陵科技学院_202111259854.8

一种制备β-氨基砜类化合物的方法_中山大学_202211389942.4

一种肛肠科术后止血引流排气用肛管_汝阳县人民医院_202210189675.X

龙图腾网&IPTOP

【发明公布】面向群智夺旗博弈的深度强化学习方法和系统_华东理工大学_202211301852.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务