买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种改进PPO的无人机视觉避障及自主导航方法_南京邮电大学_202311566971.8 

申请/专利权人:南京邮电大学

申请日:2023-11-22

公开(公告)日:2024-03-15

公开(公告)号:CN117705113A

主分类号:G01C21/20

分类号:G01C21/20;G06N3/0464;G06N3/0442;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.02#实质审查的生效;2024.03.15#公开

摘要:本发明公开了一种改进PPO的无人机视觉避障及自主导航方法,用于无人机在虚拟管道环境中的视觉避障与自主导航。该方法克服了现有深度强化学习在部分可观测环境中易陷入局部最优的局限,以适应无人机的实时决策并提高泛化性。本发明利用深度相机捕获环境数据,设计一套新颖的奖励函数和动作空间,并配合轻量级卷积神经网络预处理观测数据以提取空间特征;同时,采用长短期记忆递归神经网络提取时间序列特征,将空间和时间的特征结合起来,在策略网络中加入噪声和可变学习率增强了网络的学习能力,加速了端到端模型的收敛,并提高了数据使用效率。实验表明所提出算法能够生成更加平滑的飞行轨迹,显著提升避障性能,确保无人机飞行安全和可靠。

主权项:1.一种改进PPO的无人机视觉避障及自主导航方法,其特征在于,所述视觉避障及自主导航包括如下步骤:步骤1:采用如下步骤将无人机自主避障导航问题定义为一个部分可观察马尔可夫决策过程:分别对部分可观察马尔科夫决策过程POMDP五元组S,A,R,γ,O进行建模,其中S为环境的状态,A为无人机的输出动作集,R为奖励函数,γ为折扣系数,O为无人机接收到的观测结果,而不是完整的状态集合S;步骤2:根据步骤1建模出的部分可观察马尔可夫决策过程五元组S,A,R,γ,O,构建虚拟管道三维环境,基于PPO算法进行无人机避障导航策略求解并引入基于时序差分法的广义优势估计和OU噪声,随着训练的进行,逐渐减少添加到策略中的噪声量,对网络进行正交初始化;步骤3:构建深度强化学习网络算法框架,将输入网络状态映射到[-1,1]范围内,采用卷积神经网络CNN对无人机当前的状态空间进行特征提取,并使用长短期记忆神经网络LSTM网络对提取的特征进行处理;步骤4:改进评估模型环节,以固定步长进行训练,并在每个步长结束时保存当前的模型参数;使用这些参数在测试环境中进行固定数量的评估回合,监测平均奖励的变化曲线,持续至模型训练完成,从而确定最优训练模型;步骤5:采用集中训练和可变学习率的方式,在单台电脑上高效地收集来自多个并行无人机环境的样本轨迹进行批量训练智能体,统一更新网络的参数。

全文数据:

权利要求:

百度查询: 南京邮电大学 一种改进PPO的无人机视觉避障及自主导航方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。