【发明公布】基于专家数据与强化学习结合的着陆制导方法_西北工业大学_202311709808.2

导航：龙图腾网> 最新专利技术> 基于专家数据与强化学习结合的着陆制导方法_西北工业大学_202311709808.2

申请/专利权人：西北工业大学

申请日：2023-12-13

公开（公告）日：2024-04-05

公开（公告）号：CN117828980A

主分类号：G06F30/27

分类号：G06F30/27;G06N3/092;G06F119/02

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.23#实质审查的生效;2024.04.05#公开

摘要：本发明涉及一种基于专家数据与强化学习结合的着陆制导方法，通过使用专家数据作为引导策略，为强化学习提供了一个启动状态的示范，简化了探索问题，提升了探索效率与算法收敛速度。随着强化学习策略的改进，引导策略的效果减弱，最终收敛为一个纯粹的强化学习策略。本发明利用指导策略显著加快强化学习训练的早期阶段，可以解决含有复杂约束的强化学习着陆制导问题。

主权项：1.一种基于专家数据与强化学习结合的着陆制导方法，其特征在于步骤如下：步骤1：建立回收固联坐标系和三自由度动力学方程，3自由度二维仿真模型代替着陆器动力学模型，整个着陆过程满足的动力学方程为：式中：r和v表示着陆的位置和速度向量，ac表示器载发动力产生的加速度向量，T表示推力矢量，m着陆器质量，Isp表示推进系统的比冲；p是由于摄动和未建模的动力学而产生的加速度，忽略不计；g是行星表面的重力加速度，在着陆任务中看作常值；步骤2：着陆器性能指标为：其中：性能指标maxmtF表示终端时刻的燃料剩余最多，即着陆过程消耗燃料最少；m表示着陆器终端时刻的剩余质量，T表示着陆过程的推力；所述性能指标maxmtF需要满足式1动力学约束，还要满足推力过程约束和终端约束；步骤3、设计输入输出状态：将状态表示成包含位置、速度和质量的一个五维的向量，分别表示为着陆器的横纵坐标x,y、水平垂直速度vx,vy以及质量mass：state＝[x,y,vx,vy,mass]3将动作表示成二维的向量，包含两个角度的向量，第一维的角度用来决定推力大小，第二维的角度表示推力与速度方向的夹角，用来决定推力方向，即：action＝[Theta_1,Theta_2]4产生的推力和加速度分量通过推力最大值、最小值以及质量表示为：以公式6的每个时刻的状态参数即五维的向量作为强化学习DDPG的输入，得到强化学习DDPG的输出，输出为公式7，带入公式8和公式9得到制导指令，执行该指令则状态发生变化，持续该过程，直到该回合结束；所述强化学习DDPG的每次交互回合结束包括以下三种情况：1在给定时域长度数内，仍未满足精度要求，则该次循环结束；2着陆器纵坐标小于0，即表示现实中着陆器触及行星表面，则该次循环结束；3着陆器位置向量的二范数小于10，速度向量的二范数小于10，即表示成功着陆，则该次循环结束；步骤4、奖励函数设计：所述强化学习DDPG的奖励函数包括过程奖励函数和终端奖励函数：rxt,ut＝lfx+lx+lu7其中，过程奖励函数的一部分是lx，保证着陆器向目标点移动，直接用当前位置与目标点位置的距离，Huber型损失函数来表示；另一部分是lu，保证整个过程消耗燃料最少；终端奖励函数lfx表示为最终着陆点与期望目标点的误差；所述奖励函数lx、lu和lfx为： lu＝ω1ax2+ω2ay29 其中：δ1，δ2，ω1，ω2，px，py，,pvx，pvy，为权重系数和补偿项；步骤5、交互和训练神经网络DDPG通过使用Critic网络来评估动作的值，并通过Actor网络来学习策略，从而在连续动作空间中进行高效的策略搜索；在学习任务时采用了两种策略：一种是指导策略，另一种是探索策略；训练过程具体为：对于每个时间步从当前策略即神经网络中选择动作，执行选择的动作，并观察环境的反馈，包括奖励和下一个状态；在训练过程中，在给定时域长度内将指导策略和探索策略分阶段使用，设置截断长度，将时域分为两阶段，前一个阶段只利用指导策略，后一个阶段只使用探索策略；随着训练回合增加，探索策略占比增加，逐渐过渡到交互过程全部采取探索策略；每次交互完成后将经验元组即状态，动作，奖励，下一个状态进行存储；从已经存储的经验中采样经验元组，用于更新Actor和Critic网络；更新目标网络参数；重复上述步骤，直到满足停止条件结束训练。

全文数据：

权利要求：

百度查询：西北工业大学基于专家数据与强化学习结合的着陆制导方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

下一篇：一种园林绿化便携铲_马丽丽_202322375183.2

相关技术

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种园林绿化便携铲_马丽丽_202322375183.2

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

一种纸箱生产用贴标机_浙江华信科技发展有限公司_202322178698.3

交通工具用座椅倾斜装置_丰田纺织株式会社_202080082271.X

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种洗涤设备_重庆海尔洗衣机有限公司_202321535727.0

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质_湖南大学_202111280872.4

联邦学习回归模型损失函数评估方法、装置及电子设备_上海零数众合信息科技有限公司_202410122725.1

一种基于深度学习的多属性融合空气质量预报方法_东南大学_202210299318.9

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

结合相关技术

一种软硬结合的视频解码方法_天津津航计算技术研究所_202110699068.3

一种超声喷淋结合清洗装置_白小白未来科技(北京)有限公司_202322293913.4

结合FGFR2B的抗体及其用途_北京天广实生物技术股份有限公司_202211299274.6

结合PSMA和CD3的双特异性抗原结合分子与4-1BB共刺激组合的用途_瑞泽恩制药公司_202080045496.8

结合导流洞、泄放洞和竖井式泄洪洞的泄流结构_中国电建集团华东勘测设计研究院有限公司_202322021443.6

一种基于固液结合的密闭结构的紫外封装装置_盐城师范学院_202322151720.5

一种用于结合IgE的多肽纳米材料及其制备方法和应用_国家纳米科学中心_202210341628.2

公路拓宽改扩建中防治新旧路基结合部位纵向裂缝的方法_蓝派冲击压实技术开发(北京)有限公司_202211291331.6

一种结合预分类与机器学习的叶绿素a浓度反演方法_广东省科学院广州地理研究所_202011403257.3

一种陶瓷结合剂砂轮用造孔剂筛分装置_佛山市鼎和超硬材料制品有限公司_202322497777.0

着陆相关技术

一种冬季耐力项目陆地专项仿真训练等动力量阻尼系统_吉林体育学院_201811137408.8

一种民航着陆辅助装置_民航中南空管设备工程(广州)有限公司_202322251053.8

可重复使用火箭的着陆载荷优化设计方法_航天科工火箭技术有限公司_202111452079.8

仪表着陆系统的下滑监测电路、设备及信号处理方法_天津七六四通信导航技术有限公司_202410281598.X

一种短距着陆最小可用航迹角确定方法_中国航空工业集团公司西安飞机设计研究所_202311803040.5

用于小天体表面降落引导的着陆地标部署数值模拟方法_北京理工大学_202311774140.X

基于能量的无动力滑降无人机着陆下滑道动态生成方法_中国科学院力学研究所_202310850244.8

一种结合伪谱法和凸优化的火箭垂直回收着陆段轨迹优化方法_西北工业大学_202410250060.2

可切换模式的车灯和陆上交通工具_江苏零图光子科技有限公司_202211232802.6

一株陆生伊萨酵母及其在葡萄酒中的应用_山东省葡萄研究院_202410089128.3

龙图腾网&IPTOP

【发明公布】基于专家数据与强化学习结合的着陆制导方法_西北工业大学_202311709808.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务