买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于强化学习的多航天器追逃博弈下的最优捕获方法_同济大学_202311242135.4 

申请/专利权人:同济大学

申请日:2023-09-25

公开(公告)日:2024-04-26

公开(公告)号:CN117332684B

主分类号:G06F30/27

分类号:G06F30/27;G06F17/16;G06N3/092;G06N5/04

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2024.01.19#实质审查的生效;2024.01.02#公开

摘要:本发明涉及一种基于强化学习的多航天器追逃博弈下的最优捕获方法,包括以下步骤:建立多航天器动态方程;获取追逃博弈双方的初始位置,对多航天器进行任务分配;针对外部扰动设计补偿器;对动态方程进行坐标变换;根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;设计基于强化学习的无模型迭代策略;初始化控制器,并采集博弈双方动态信息;根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;根据最优控制器控制追击航天器捕获逃逸航天器,实现追逃博弈的纳什均衡。与现有技术相比,本发明可以克服外部系统带来的扰动,在未知模型的情况下完成追击任务并实现纳什均衡。

主权项:1.一种基于强化学习的多航天器追逃博弈下的最优捕获方法,其特征在于,包括以下步骤:步骤1根据博弈航天器动力学特性建立多航天器动态方程;步骤2获取追逃博弈双方的初始位置,对多航天器进行任务分配;步骤3针对外部扰动设计补偿器;步骤4根据补偿器对多航天器动态方程进行坐标变换;步骤5根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;步骤6设计基于强化学习的无模型迭代策略;步骤7初始化控制器,并采集博弈双方的动态信息;步骤8根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;步骤9根据最优控制器控制追击航天器,捕获逃逸航天器,实现追逃博弈的纳什均衡;所述步骤1中,多航天器动态方程为: 其中,α,β,γ,分别为航天器沿着参考坐标系的位置与速度,σ表示航天器的角速度,uα,uβ,uγ分别表示在航天器在各个坐标轴方向的控制输入;定义系统状态系统控制器U=[uα,uβ,uγ],则多个航天器表示为其中,N,M分别表示逃逸者与追击者的数量,Xei,Xpj分别表示逃逸与追击者的系统状态,Uei表示逃逸者的系统输入,Upj表示追击者的系统输入,A,B矩阵表示其在LVLH坐标下用状态空间描述的系统矩阵: 所述步骤2中,对多航天器进行任务分配具体为:建立二分图,分别表示双方航天器其中,Pj表示第j个追击者,Ei表示第i个逃逸者;在二分图中画一条从Pj到Ei的边,Pj到Ei的初始距离作为成本;使用最大匹配算法来为每一个追击航天器分配一个追击任务;所述步骤3中,外部扰动为:d=C0w,其中C0,A0为常数矩阵,并且A0满足ReλA0≤0,d表示航天受到的扰动,由外部系统w产生,其微分为所述步骤3中,针对外部扰动,存在正整数sr,以及实数使得: 定义:令为一个可控矩阵对且为赫尔维茨矩阵,则存在非奇异矩阵Tr满足以下方程: 其中,则定义动态补偿器为:其中,Upj表示追击者的系统输入,ηj为动态补偿器;所述步骤4中,坐标变换的方法为:其中,θj=colθ1,θ2,θ3,,Γ=blockdiagΓ1,Γ3,Γ3,T=blockdiagT1,T2,T3,Upj表示追击者的系统输入;经过坐标变换后,追击航天器动态方程表示为: 相对状态量为:定义新的增广系统变量则其动态变量表示为: 所述步骤5包括以下步骤:步骤5-1考虑无限时域下的博弈场景,引入以下博弈的性能指标函数: 其中Q为半正定矩阵,Rp,Re为正定矩阵,纳什均衡为步骤5-2根据性能指标函数定义航天器追逃博弈问题:定义追逃双方的值函数为: 定义零和微分对策如下: 即追击者的目标是最小化值函数,而逃避者则试图最大化值函数,这相当于定义两个性能指标Jpj=Jji=-Jei.,博弈双方都最小化它们各自的性能指标所述步骤6具体为:定义追逃双方的控制增益分别为: 航天器相对距离的动态方程为: 对值函数进行偏导得到: 则: 其中,在迭代求取的过程中不依赖于系统的状态方程,从而得到无模型的迭代策略;所述步骤7中,采集博弈双方的动态信息为: 所述步骤8具体为:将航天器追逃博弈问题的求解转化为黎卡提方程的等价方程的求解,通过最小二乘法迭代求解直到算法收敛,满足∥∥Pjil-Pjil-1∥∥≤∈,得到最优追击策略再次进行坐标变换得到最优追击控制器为

全文数据:

权利要求:

百度查询: 同济大学 一种基于强化学习的多航天器追逃博弈下的最优捕获方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。