买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于生成对抗模仿学习的含落角约束制导方法_西北工业大学_202311823051.X 

申请/专利权人:西北工业大学

申请日:2023-12-27

公开(公告)日:2024-03-29

公开(公告)号:CN117787096A

主分类号:G06F30/27

分类号:G06F30/27;G06N3/0475;G06N3/092;G06N3/094;G06F111/04;G06F111/08;G06F119/14

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.16#实质审查的生效;2024.03.29#公开

摘要:本发明涉及一种基于生成对抗模仿学习的含落角约束制导方法,建立了一个对抗性学习框架,通过利用专家数据训练判别器来生成奖励模型,从而解决奖励函数设计问题;利用奖励值引导智能体的探索与学习过程,避免智能体探索不良的决策空间,进而提高学习效率;利用生成器与环境交互产生交互数据,从而驱动策略的提升和更新;采用交替训练生成器和判别器的方式,使得判别器和生成器处于动态博弈,生成多样性较高的样本,增加数据的覆盖范围,提高智能体在新场景下的适应能力。该方法不依赖于对剩余飞行时间的精确测量,因此具有更好的泛化性能。

主权项:1.一种基于生成对抗模仿学习的含落角约束制导方法,其特征在于步骤如下:步骤1:建立地面坐标系下的导弹无推力三维质点动力学模型; 其中,D为导弹飞行过程中所受阻力,阻力为速度的函数,m为导弹质量,ay,az分别为导弹在俯仰方向和偏航方向的加速度;步骤2、采用最优制导律生成数据集:使用强化学习算法学习法向过载ny需要数据集的引导,数据集为采用最优制导律制导生成的轨迹数据: 其中:飞行器飞行过程中速度向量Vi的转动角速度与目标视线的转动角速度成比例的最优制导律,剩余飞行时间可根据直接计算;终端角度估计采用下式: 其中:η为初始导弹前置角,q0为初始视线角,N为比例导引系数;所述轨迹数据包含一系列的状态、动作对;步骤3、设计输入状态和输出:步骤3-1:状态空间表达式表示进攻弹与目标的相对关系,不仅描述相对距离以及视线角,相对距离变化率的存在也可以使双方关系更有区分度,而且弹道倾角差值与剩余飞行时间的存在优化了导弹落角约束与飞行时间,表达式为:S=[R,dR,q,θt-θ,tgo]3其中包括相对距离R、相对距离变化率dR、弹目视线角q、弹目视线角速率dq、当前弹道倾角的差值θt-θ、导弹在当前位置以设定的比例系数进行比例导引法制导时击中目标所需的时间tgo;步骤3-2:以步骤2强化学习算法计算得出的法向过载ny作为附加控制,由传统比例导引计算出的法向过载nyp作为常规控制,而最终体现在导弹上的法向控制过载由两者相加而来,表达式如下:nactual=np+nRL4 其中:np表示飞行器的需用过载;K表示导航比;θi表示飞行器的弹道倾角;q表示导弹与目标之间的视线方位角;学习的最终目标是拉近强化学习策略和专家策略的距离,即理想学习效果是nactual=n*;步骤4、训练判别器:以专家轨迹和生成器轨迹作为输入数据,以最小化分类误差为优化目标进行训练;GAIL的判别器损失函数表示为: 其中,πE是专家策略,fθ是生成器的策略网络,p是环境的转移概率分布;步骤5、利用PPO学习策略进行学习:在学习时首先预训练;与环境交互产生交互数据;智能体根据当前状态选择一个动作并执行,环境接收智能体的动作并返回一个新的状态,并将状态,行为和新状态存储,直到一定数目;利用奖励模型对状态行为输出奖惩值;对于每个状态动作对,判别器会输出一个概率值,表示该状态动作对来自于专家的概率;然后根据这个概率值来计算代理奖励,代理奖励的大小取决于判别器对生成器和专家的区分能力;更新策略:利用PPO算法作为生成器,生成器损失函数为: 其中,fθ是生成器的策略网络,ρ0是初始状态分布,Dst,at是判别器的输出,表示轨迹st,at是来自于专家轨迹的概率;表示期望操作,s0是起始状态,at是在状态st处生成器输出的动作;利用PPO函数产生策略梯度优化该损失函数: 其中,是比率,是优势估计,∈是截断范围的超参数。

全文数据:

权利要求:

百度查询: 西北工业大学 基于生成对抗模仿学习的含落角约束制导方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。