买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于专家数据与强化学习结合的着陆制导方法_西北工业大学_202311709808.2 

申请/专利权人:西北工业大学

申请日:2023-12-13

公开(公告)日:2024-04-05

公开(公告)号:CN117828980A

主分类号:G06F30/27

分类号:G06F30/27;G06N3/092;G06F119/02

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.23#实质审查的生效;2024.04.05#公开

摘要:本发明涉及一种基于专家数据与强化学习结合的着陆制导方法,通过使用专家数据作为引导策略,为强化学习提供了一个启动状态的示范,简化了探索问题,提升了探索效率与算法收敛速度。随着强化学习策略的改进,引导策略的效果减弱,最终收敛为一个纯粹的强化学习策略。本发明利用指导策略显著加快强化学习训练的早期阶段,可以解决含有复杂约束的强化学习着陆制导问题。

主权项:1.一种基于专家数据与强化学习结合的着陆制导方法,其特征在于步骤如下:步骤1:建立回收固联坐标系和三自由度动力学方程,3自由度二维仿真模型代替着陆器动力学模型,整个着陆过程满足的动力学方程为: 式中:r和v表示着陆的位置和速度向量,ac表示器载发动力产生的加速度向量,T表示推力矢量,m着陆器质量,Isp表示推进系统的比冲;p是由于摄动和未建模的动力学而产生的加速度,忽略不计;g是行星表面的重力加速度,在着陆任务中看作常值;步骤2:着陆器性能指标为: 其中:性能指标maxmtF表示终端时刻的燃料剩余最多,即着陆过程消耗燃料最少;m表示着陆器终端时刻的剩余质量,T表示着陆过程的推力;所述性能指标maxmtF需要满足式1动力学约束,还要满足推力过程约束和终端约束;步骤3、设计输入输出状态:将状态表示成包含位置、速度和质量的一个五维的向量,分别表示为着陆器的横纵坐标x,y、水平垂直速度vx,vy以及质量mass:state=[x,y,vx,vy,mass]3将动作表示成二维的向量,包含两个角度的向量,第一维的角度用来决定推力大小,第二维的角度表示推力与速度方向的夹角,用来决定推力方向,即:action=[Theta_1,Theta_2]4产生的推力和加速度分量通过推力最大值、最小值以及质量表示为: 以公式6的每个时刻的状态参数即五维的向量作为强化学习DDPG的输入,得到强化学习DDPG的输出,输出为公式7,带入公式8和公式9得到制导指令,执行该指令则状态发生变化,持续该过程,直到该回合结束;所述强化学习DDPG的每次交互回合结束包括以下三种情况:1在给定时域长度数内,仍未满足精度要求,则该次循环结束;2着陆器纵坐标小于0,即表示现实中着陆器触及行星表面,则该次循环结束;3着陆器位置向量的二范数小于10,速度向量的二范数小于10,即表示成功着陆,则该次循环结束;步骤4、奖励函数设计:所述强化学习DDPG的奖励函数包括过程奖励函数和终端奖励函数:rxt,ut=lfx+lx+lu7其中,过程奖励函数的一部分是lx,保证着陆器向目标点移动,直接用当前位置与目标点位置的距离,Huber型损失函数来表示;另一部分是lu,保证整个过程消耗燃料最少;终端奖励函数lfx表示为最终着陆点与期望目标点的误差;所述奖励函数lx、lu和lfx为: lu=ω1ax2+ω2ay29 其中:δ1,δ2,ω1,ω2,px,py,,pvx,pvy,为权重系数和补偿项;步骤5、交互和训练神经网络DDPG通过使用Critic网络来评估动作的值,并通过Actor网络来学习策略,从而在连续动作空间中进行高效的策略搜索;在学习任务时采用了两种策略:一种是指导策略,另一种是探索策略;训练过程具体为:对于每个时间步从当前策略即神经网络中选择动作,执行选择的动作,并观察环境的反馈,包括奖励和下一个状态;在训练过程中,在给定时域长度内将指导策略和探索策略分阶段使用,设置截断长度,将时域分为两阶段,前一个阶段只利用指导策略,后一个阶段只使用探索策略;随着训练回合增加,探索策略占比增加,逐渐过渡到交互过程全部采取探索策略;每次交互完成后将经验元组即状态,动作,奖励,下一个状态进行存储;从已经存储的经验中采样经验元组,用于更新Actor和Critic网络;更新目标网络参数;重复上述步骤,直到满足停止条件结束训练。

全文数据:

权利要求:

百度查询: 西北工业大学 基于专家数据与强化学习结合的着陆制导方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。