【发明公布】基于生成对抗模仿学习的含落角约束制导方法_西北工业大学_202311823051.X

导航：龙图腾网> 最新专利技术> 基于生成对抗模仿学习的含落角约束制导方法_西北工业大学_202311823051.X

申请/专利权人：西北工业大学

申请日：2023-12-27

公开（公告）日：2024-03-29

公开（公告）号：CN117787096A

主分类号：G06F30/27

分类号：G06F30/27;G06N3/0475;G06N3/092;G06N3/094;G06F111/04;G06F111/08;G06F119/14

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.16#实质审查的生效;2024.03.29#公开

摘要：本发明涉及一种基于生成对抗模仿学习的含落角约束制导方法，建立了一个对抗性学习框架，通过利用专家数据训练判别器来生成奖励模型，从而解决奖励函数设计问题；利用奖励值引导智能体的探索与学习过程，避免智能体探索不良的决策空间，进而提高学习效率；利用生成器与环境交互产生交互数据，从而驱动策略的提升和更新；采用交替训练生成器和判别器的方式，使得判别器和生成器处于动态博弈，生成多样性较高的样本，增加数据的覆盖范围，提高智能体在新场景下的适应能力。该方法不依赖于对剩余飞行时间的精确测量，因此具有更好的泛化性能。

主权项：1.一种基于生成对抗模仿学习的含落角约束制导方法，其特征在于步骤如下：步骤1：建立地面坐标系下的导弹无推力三维质点动力学模型；其中，D为导弹飞行过程中所受阻力，阻力为速度的函数，m为导弹质量，ay,az分别为导弹在俯仰方向和偏航方向的加速度；步骤2、采用最优制导律生成数据集：使用强化学习算法学习法向过载ny需要数据集的引导，数据集为采用最优制导律制导生成的轨迹数据：其中：飞行器飞行过程中速度向量Vi的转动角速度与目标视线的转动角速度成比例的最优制导律，剩余飞行时间可根据直接计算；终端角度估计采用下式：其中：η为初始导弹前置角，q0为初始视线角，N为比例导引系数；所述轨迹数据包含一系列的状态、动作对；步骤3、设计输入状态和输出：步骤3-1：状态空间表达式表示进攻弹与目标的相对关系，不仅描述相对距离以及视线角，相对距离变化率的存在也可以使双方关系更有区分度，而且弹道倾角差值与剩余飞行时间的存在优化了导弹落角约束与飞行时间，表达式为：S＝[R,dR,q，θt-θ，tgo]3其中包括相对距离R、相对距离变化率dR、弹目视线角q、弹目视线角速率dq、当前弹道倾角的差值θt-θ、导弹在当前位置以设定的比例系数进行比例导引法制导时击中目标所需的时间tgo；步骤3-2：以步骤2强化学习算法计算得出的法向过载ny作为附加控制，由传统比例导引计算出的法向过载nyp作为常规控制，而最终体现在导弹上的法向控制过载由两者相加而来，表达式如下：nactual＝np+nRL4 其中：np表示飞行器的需用过载；K表示导航比；θi表示飞行器的弹道倾角；q表示导弹与目标之间的视线方位角；学习的最终目标是拉近强化学习策略和专家策略的距离，即理想学习效果是nactual＝n*；步骤4、训练判别器：以专家轨迹和生成器轨迹作为输入数据，以最小化分类误差为优化目标进行训练；GAIL的判别器损失函数表示为：其中，πE是专家策略，fθ是生成器的策略网络，p是环境的转移概率分布；步骤5、利用PPO学习策略进行学习：在学习时首先预训练；与环境交互产生交互数据；智能体根据当前状态选择一个动作并执行，环境接收智能体的动作并返回一个新的状态，并将状态，行为和新状态存储，直到一定数目；利用奖励模型对状态行为输出奖惩值；对于每个状态动作对，判别器会输出一个概率值，表示该状态动作对来自于专家的概率；然后根据这个概率值来计算代理奖励，代理奖励的大小取决于判别器对生成器和专家的区分能力；更新策略：利用PPO算法作为生成器，生成器损失函数为：其中，fθ是生成器的策略网络，ρ0是初始状态分布，Dst,at是判别器的输出，表示轨迹st,at是来自于专家轨迹的概率；表示期望操作，s0是起始状态，at是在状态st处生成器输出的动作；利用PPO函数产生策略梯度优化该损失函数：其中，是比率，是优势估计，∈是截断范围的超参数。

全文数据：

权利要求：

百度查询：西北工业大学基于生成对抗模仿学习的含落角约束制导方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种具有服药求助警报功能的药丸储存项链_杨洁_202322091839.8

下一篇：一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

相关技术

一种具有服药求助警报功能的药丸储存项链_杨洁_202322091839.8

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

一种电池叠放平台_济源市万洋绿色能源有限公司_202322480402.3

一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

键合劈刀_有研(广东)新材料技术研究院_202322391831.3

一种高效散热电源_广州市力为电子有限公司_202322175013.X

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

高温堆直流调试防干扰回路_华能山东石岛湾核电有限公司_202322501565.5

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

含相关技术

一种含调节膦的除草组合物_广西化工研究院有限公司_202210639969.8

用于制备含硅和氮的膜的方法_弗萨姆材料美国有限责任公司_201980062463.1

含氟废水处理系统_苏伊士环境科技(北京)有限公司_202322533955.0

一种含雾图像融合模型和方法_佛山科学技术学院_202410076413.1

一种含风道结构的配电柜_苏州笑聪电气设备有限公司_202311175595.X

一种含钯滤液处理用络合釜_云南铂亚贵金属再生利用有限公司_202322373040.8

用于含银薄膜的蚀刻组合物_三星显示有限公司_202111474948.7

一种含镉废水处理方法_北京纬纶华业环保科技股份有限公司_201810325362.6

一种用于含硫气井的压力表_中国石油化工股份有限公司_202322783802.1

一种含三嗪结构的化合物及其应用_江苏三月科技股份有限公司_202011101502.5

落相关技术

一种冲压落料件自动翻转装置_陕西重型汽车有限公司_202322171763.X

移液吸头排列机器人的落料装置_梅木精密工业(珠海)有限公司_201810100864.9

一种便于机器人抓取的自动落杯装置_新绎健康科技有限公司_202322428858.5

用于热成型开卷落料模模具板件托料结构及模具_上海屹丰汽车模具制造有限公司_202321918670.2

一种开卷落料模具托料、排料机构_祥鑫科技股份有限公司_201910811927.6

一种伸缩落料筒及具有其的清车机_天府重工有限公司_202322777746.0

一种冲压模具的落料槽堵料疏通机构_台州市鼎棒模具有限公司_202322652571.0

一种缓冲耗能结构及拉索防落梁装置_南京现代综合交通实验室_202322119654.3

落摔测试设备_合肥联宝信息技术有限公司_202321806176.7

用于元素分析仪的落料机构及落料方法_湖南三德科技股份有限公司_201810525508.1

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

用于工业机器人减速机故障学习方法_重庆工业职业技术学院_202310128261.0

一种分布式学习索引模型的构建方法及应用_华中科技大学_202111095824.8

基于深度学习的LED光源识别方法、装置、设备及介质_湖北经济学院_202410088953.1

龙图腾网&IPTOP

【发明公布】基于生成对抗模仿学习的含落角约束制导方法_西北工业大学_202311823051.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务