买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】面向群智夺旗博弈的深度强化学习方法和系统_华东理工大学_202211301852.5 

申请/专利权人:华东理工大学

申请日:2022-10-24

公开(公告)日:2023-01-20

公开(公告)号:CN115631165A

主分类号:G06T7/00

分类号:G06T7/00;G06N3/0464;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.02.14#实质审查的生效;2023.01.20#公开

摘要:本发明公开了一种面向群智夺旗博弈的深度强化学习方法和系统,解决不完美信息条件下外部竞争、内部合作的群智路径规划与夺旗的问题。具体而言,首先基于卷积神经网络的分通道提取图片特征;然后,基于图注意力网络根据自身观测信息与接收到的队友观测信息,定量确定不完美信息条件下各智能体间的竞合关系,使得智能体在决策时,充分考虑其他智能体的状态;最后,根据对于场上不同智能体的注意力值,辅助多智能体双重决斗深度Q网络实现多智能体在二维迷宫环境中的路径规划与自主导航,优化群智夺旗策略,以实现快速、精准地二对二夺旗。

主权项:1.一种面向群智夺旗博弈的深度强化学习方法,其特征在于,方法包括:步骤1:将复杂战场环境抽象为包括多个智能体在内的二维迷宫仿真环境;步骤2:基于卷积神经网络分通道提取输入图像的视觉特征;步骤3:使用强化学习双重决斗深度Q网络分别为分队的智能体初始化对应的网络;步骤4:根据群智夺旗任务目标构造奖励函数,根据由战场环境抽象出的夺旗规则,设置需要达到的目标;步骤5:在双重决斗深度Q网络结构中加入图注意力网络;步骤6:设置最大迭代轮次;步骤7:根据智能体在该时刻的观测信息和与队友间的通讯信息,计算每一步各智能体间的注意力值,智能体根据注意力值选择偏向进攻防守的动作;步骤8:根据选取的奖励函数执行动作,获取经验回放四元组;步骤9:获取新的环境部分观测,更新经验回放四元组,计算双重决斗深度Q网络目标值;步骤10:反复执行步骤7-9,更新双重决斗深度Q网络,直至迭代次数达到最大迭代次数,实现迷宫环境下的群智夺旗博弈。

全文数据:

权利要求:

百度查询: 华东理工大学 面向群智夺旗博弈的深度强化学习方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。