买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于离散PPO的潜航器节能路径跟踪方法_天津大学_202311669432.7 

申请/专利权人:天津大学

申请日:2023-12-07

公开(公告)日:2024-04-05

公开(公告)号:CN117826848A

主分类号:G05D1/485

分类号:G05D1/485;G05D101/10

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.23#实质审查的生效;2024.04.05#公开

摘要:本发明涉及一种基于离散PPO算法的潜航器节能路径跟踪方法,可解决目前海洋环境中潜航器动态、自适应的能源路径跟踪,并在实际运行中不断优化能源消耗的问题。包括下列步骤:基于Gazebo平台进行环境建模任务表示,对海洋环境、任务路径以及障碍物信息进行详细规定,并且对环境状态以及潜航器的状态做数值表示;对PPO算法的三个网络进行参数初始化;对收集到的状态信息进行归一化预处理,将状态空间、动作空间以及奖励制存入优先经验回放池中;设计节能奖励函数;用最大似然法更新策略并且反复迭代。最后得到一种基于离散PPO算法的潜航器节能路径跟踪算法,有望在潜航器的路径跟踪问题中的能源效率和环境可持续性方面产生显著的影响。

主权项:1.一种基于离散PPO算法的潜航器节能路径跟踪方法,其特征在于:1环境建模和任务表示:根据潜航器的路径跟踪任务,基于Gazebo仿真平台建立海洋环境模型,该海洋环境模型主要包括海洋地形、海流、水温等因素,用于模拟真实的海洋环境。其中,设置Python算法与ROS的话题通信接口,算法为环境提供基于时间序列的动作指令,并且从环境中采样算法训练所需要的状态。任务表示中,对潜航器的路径跟踪任务定义为三维空间中运动的螺旋路径,设计螺旋路径半径20m,并且用明确的函数方程表示。2强化学习算法设计:初始化离散PPO算法所需的三个网络,分别是actor_old,actor和critic。actor网络用于选择动作,需要训练更新、梯度反向传播;actor_old网络参数复制于actor网络,不需要梯度反向传播;critic网络用于计算状态价值,需要训练更新、梯度反向传播。每个网络的结构设计均需考虑动作空间和状态空间的维数,其中critic的设计中,网络输入维度与状态空间的维数一致、输出为一维标量数据;actor的设计中,网络输入维度与状态空间的维数一致、输出为与动作空间维数一致的数据。3状态空间的设计及数据处理:在Gazebo仿真环境中,将环境状态转化为合适的状态表示,主要包括环境洋流不同位置的速度、障碍物位置信息、以及潜航器当前位置,共9维。由于数据差异较大,直接输入网络容易导致网络的崩溃以及收敛速度下降,将状态数据进行归一化的预处理操作,使不同状态之间的尺度差异较小,从而有助于神经网络模型更好地学习状态之间的关系,有助于提高算法的稳定性和收敛速度。4优先级经验回放:为了提高稳定性,构建优先级队列,将经验样本按照优先级从高到低排序,并构建一个优先级队列。这样,具有较高优先级的样本将在训练过程中被更频繁地选择。每次训练迭代中,从优先级队列中选择一定数量的经验样本。其中,优先级的定义主要依靠算法训练中的TD误差,误差大的优先级高,这有助于平稳地更新策略网络,避免因为数据的相关性导致训练不稳定。5奖励函数的设计:提出一种潜航器在运动中可以降低能耗的奖励函数。该奖励函数主要包含能源消耗量、任务完成度两个指标。能保证潜航器在利用较少能量的情况下,更好地完成任务。

全文数据:

权利要求:

百度查询: 天津大学 一种基于离散PPO的潜航器节能路径跟踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。