申请/专利权人:西安工业大学
申请日:2023-04-23
公开(公告)日:2023-07-14
公开(公告)号:CN116430898A
主分类号:G05D1/10
分类号:G05D1/10
优先权:
专利状态码:在审-实质审查的生效
法律状态:2023.08.01#实质审查的生效;2023.07.14#公开
摘要:本发明提供了一种应用于无人机协同对抗的改进QMIX方法,无人机在当前时刻观测其他无人机获取观测值;无人机将自身的当前状态以及观测值输入训练后的QMIX网络中,以使该QMIX网络输出无人机在当前时刻的联合动作;无人机执行步骤2的联合动作以实现协同对抗。本发明在训练QMIX网络过程中采用梯度正则化防止QMIX中的联合Q值网络梯度过大,设置多步回报返回的惩罚基线,利用正则项因子惩罚偏离该基线联合Q值的无人机。其次,采用softmax函数优化联合Q值以减少联合Q值的过估计,避免多个无人机陷入局部最优造成算法不稳定。因此本发明可以提升无人机协同对抗的稳定性以及质量,利于野外作业。
主权项:1.一种应用于无人机协同对抗的改进QMIX方法,其特征在于,包括:步骤1,无人机在当前时刻观测其他无人机获取观测值;步骤2,无人机将自身的当前状态以及观测值输入训练后的QMIX网络中,以使该QMIX网络输出无人机在当前时刻的联合动作;步骤3,无人机执行步骤2的联合动作以实现协同对抗;其中,训练QMIX网络通过在任一个训练步执行:a无人机将自身在任一历史时刻的状态、该时刻得到的观测值输入至自身对应单智能体行为网络获取添加熵罚项约束的Q值,并根据该Q值选择执行动作;b无人机将该时刻自身对应的单智能体行为网络的输入、输出以及选择执行动作的奖励作为该时刻的回合数据,并放入经验回放池;c根据每个无人机的熵罚项约束的Q值计算联合Q值,并利用softmax函数对联合Q值进行分类取值;d利用累计所有历史时刻得到的联合奖励设置奖励基线,以对分类取值的联合Q值作限制;e对损失函数梯度以增加正则项系数的方式实现正则化,并判断是该训练步是否满足终止条件,如果是则训练结束得到训练后的QMIX网络。
全文数据:
权利要求:
百度查询: 西安工业大学 应用于无人机协同对抗的改进QMIX方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。