买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】针对智能体意外出错情况的多智能体强化学习方法及系统_中国科学技术大学_202110862910.0 

申请/专利权人:中国科学技术大学

申请日:2021-07-29

公开(公告)日:2024-02-23

公开(公告)号:CN113592099B

主分类号:G06N20/00

分类号:G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.02.23#授权;2021.11.19#实质审查的生效;2021.11.02#公开

摘要:本发明公开了一种针对智能体意外出错情况的多智能体强化学习方法及系统,引入了自适应掉线率,训练过程中自适应地模拟环境中不同概率的出错情况,使得模型在执行时能够更好地去解决这一问题。此外,训练框架具有普适性,因为不涉及到具体的训练算法,它可以适用于一切中心化训练去中心化执行范式的方法。

主权项:1.一种针对智能体意外出错情况的多智能体强化学习方法,其特征在于,包括:多智能体强化学习过程中,引入自适应掉线率,根据当前自适应掉线率进行随机采样,将一部分智能体设置为掉线状态,其他智能体正常工作,处于掉线状态的智能体输出随机动作;其中,应用在计算机游戏场景中时,各智能体获取预先分配的指定类型的信息,这些信息都属于观测信息,表征当前场景下的状态,观测信息包括:游戏场景中自己的位置、血量、视野范围内的友方单位和敌方单位的位置和血量等信息;各智能体根据观测信息进行内部决策,输出单智能体状态动作值函数;所有智能体的单智能体状态动作值函数输入至混合网络,输出集中状态动作值函数;多智能体强化学习过程中将掉线状态的智能体输出的随机动作与正常工作的智能体输出的动作通过混合网络进行决策,得到最终输出动作,通过最终输出动作计算损失,从而进行多智能体强化学习;每隔设定的步数对当前模型进行测试,根据模型测试结果来调整自适应掉线率的大小。

全文数据:

权利要求:

百度查询: 中国科学技术大学 针对智能体意外出错情况的多智能体强化学习方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。