【发明授权】一种基于注意力和循环PPO实现的导航决策方法_三峡大学_202310455925.4

导航：龙图腾网> 最新专利技术> 一种基于注意力和循环PPO实现的导航决策方法_三峡大学_202310455925.4

申请/专利权人：三峡大学

申请日：2023-04-25

公开（公告）日：2024-04-30

公开（公告）号：CN116592883B

主分类号：G01C21/20

分类号：G01C21/20;G06T9/00;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.04.30#授权;2023.09.01#实质审查的生效;2023.08.15#公开

摘要：一种基于注意力和循环PPO实现的导航决策方法，它包括以下步骤：步骤1：智能体与环境交互获取环境图像数据信息；步骤2：对获取的图像信息进行编码，压缩状态信息，提高训练效率；步骤3：构建多核卷积神经网络模块对环境信息进行初步特征提取；步骤4：构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩，获取重要且关键的信息；步骤5：将经过模型提取的重要历史信息输入到actor网络获取动作，输入到critic网络评估价值；步骤6：智能体根据actor网络所得概率矩阵选取动作，与环境交互一定次数后，数据存入经验池；步骤7：随机抽取batch_size大小的数据进行训练，计算损失函数，进行梯度裁剪，最终通过反向传播进行参数更新。

主权项：1.一种基于注意力和循环PPO实现的导航决策方法，其特征在于，它包括以下步骤：步骤1：智能体与环境交互获取环境图像数据信息；步骤2：对获取的图像信息进行编码，压缩状态信息，提高训练效率；步骤3：构建多核卷积神经网络模块对环境信息进行初步特征提取；步骤4：构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩，获取重要且关键的信息；步骤5：将经过模型提取的重要历史信息输入到actor网络获取动作，输入到critic网络评估价值；步骤6：智能体根据actor网络所得概率矩阵选取动作，与环境交互一定次数后，数据存入经验池；步骤7：随机抽取batch_size大小的数据进行训练，计算损失函数，进行梯度裁剪，最终通过反向传播进行参数更新；由步骤3至步骤5构建ARPPO模型，ARPPO模型的结构为：编码特征提取卷积模块的第一卷积层1→编码特征提取卷积模块的第二卷积层2→编码特征提取注意力模块的多头注意力层3→编码特征提取注意力模块的第一全连接层4→编码特征提取注意力模块的第一丢弃层5→编码特征提取注意力模块的第二全连接层6→编码特征提取注意力模块的第一标准化层7→编码特征提取注意力模块的第二标准化层8→编码特征提取注意力模块的第二丢弃层9→编码特征提取注意力模块的第三丢弃层10→编码特征提取循环神经网络模块的LSTM层11；编码特征提取循环神经网络模块的LSTM层11→策略选择Actor网络模块的第一全连接层12→策略选择Actor网络模块的第二全连接层13；编码特征提取循环神经网络模块的LSTM层11→状态价值评估Critic网络模块的第一全连接层14→动作价值评估Critic网络模块的第二全连接层15；ARPPO模型在工作时，采用以下步骤：1从环境中获取的初始状态信息，使用卷积网络模块对图像编码信息进行初步特征提取，通过第一卷积层1与第二卷积层2，提取数据的深层多维信息；2将提取出的深层多维信息输入到注意力模块中；首先输入至多头注意力层3中捕捉信息的关联性，在多个不同位置上提取特征信息中重要且关键的信息并拼接，然后通过编码特征提取注意力模块的第一全连接层4、第一丢弃层5进行特征处理并选择丢弃一部分数据防止出现过拟合现象，接着编码特征提取注意力模块的第二全连接层6实现上一层全连接层的残差连接，使用第一标准化层7、第二标准化层8进行层归一化处理，解决层与层之间梯度的稳定性问题，最终再通过第二丢弃层9、第三丢弃层10丢弃部分数据，防止过拟合；3将注意力模块输出的特征信息输入到循环神经网络模块的LSTM层11，通过引入LSTM网络提取数据的时域特性，使得智能体在探索过程中形成长时记忆；4最后将循环神经网络模块的输出特征输入到Actor网络模块与Critic网络模块，Actor网络模块通过策略选择Actor网络模块的第一全连接层12进行特征信息综合，接着通过策略选择Actor网络模块的第二全连接层13获取智能体所采取的动作及其概率分布，Critic网络模块使用状态价值评估Critic网络模块的第一全连接层14综合特征信息，最后使用状态价值评估Critic网络模块的第二全连接层15对智能体所处当前状态进行价值评分。

全文数据：

权利要求：

百度查询：三峡大学一种基于注意力和循环PPO实现的导航决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种适用于热辅助治疗的硝酸2-(4-甲基噻唑-5-基)乙酯盐脑靶向脂质体_山东京卫制药有限公司_202311121383.3

下一篇：一种外导体压接装置_江苏博之旺自动化设备有限公司_202111235070.1

相关技术

一种适用于热辅助治疗的硝酸2-(4-甲基噻唑-5-基)乙酯盐脑靶向脂质体_山东京卫制药有限公司_202311121383.3

一种外导体压接装置_江苏博之旺自动化设备有限公司_202111235070.1

双极化天线阵列测向角度的获取方法、系统、设备及介质_网络通信与安全紫金山实验室_202111062353.0

光催化装置嵌入沉砂池协同降解辣椒素污水与除砂_山东建筑大学_202111505610.3

一种基于计算机视觉的肺区区域分割系统_东莞理工学院_202210022595.5

一种防止带钢在精轧卷取中发生追尾的方法_首钢京唐钢铁联合有限责任公司_202210031884.1

一种沉香GC-MS指纹图谱的构建方法_莆田海关综合技术服务中心_202111293274.0

掩模缺陷的检测方法_中国科学院上海高等研究院_202310202672.X

消息的发送方法、装置、电子设备和存储介质_北京字跳网络技术有限公司_202210060996.X

一种焊剂片约束电弧焊焊接T型接头的夹具_兰州理工大学_201910643137.1

一种带有环状槽的齿轮制备模具_蓝山县金山川粉末冶金有限公司_202111384059.1

一种基于水蓼的富磷生物炭及其制备方法与应用_四川农业大学_202211532429.6

导航相关技术

台阶仪的导航方法及导航系统_深圳市中图仪器股份有限公司_202410151851.X

基于智能拐杖的导航方法、导航装置和智能拐杖_上海傅利叶智能科技有限公司_202110079439.8

一种多功能导航浮标_交通运输部北海航海保障中心青岛航标处_202410341411.0

用于车辆导航的方法和装置_滴图(北京)科技有限公司_202211392949.1

轮椅机器人及其室内自主导航方法_桂林电子科技大学_201810981095.8

一种便于安装的导航定位装置_成都福涞科科技有限公司_202322504963.2

一种AGV导航方法及系统_智能移动机器人(中山)研究院_202410049354.9

用于飞机导航的方法和系统_泰雷兹公司_201911086658.8

一种手动式手术导航定位系统_北京罗森博特科技有限公司_201811216861.8

一种离线移动端导航技术实现方法_北京航天世景信息技术有限公司_202111311405.3

PPO相关技术

一种低吸水率玻纤增强PA/PPO合金及其制备方法_上海聚威新材料股份有限公司_202410138353.1

一种基于注意力和循环PPO实现的导航决策方法_三峡大学_202310455925.4

六臂星型PPO-PLGA共聚物及其制备方法和应用_中国石油化工股份有限公司_202211316093.X

一种低翘曲PPO和PA66的复合材料及其制备方法_东莞市东翔塑胶有限公司_202311836041.X

PPO框隔热垫_东莞市硅翔绝缘材料有限公司_202322578425.8

基于改进PPO算法的多无人机路径规划方法_安徽大学_202311379378.2

基于聚类PPO算法的多移动机器人合作的路径规划方法_南京理工大学_202410036441.0

一种基于离散PPO的潜航器节能路径跟踪方法_天津大学_202311669432.7

一种耐水解的PPO合金材料及其制备方法_浙江永兴新材料科技有限公司_202311852745.6

一种耐酸碱PPA/PPO合金材料及其制备方法_广东威林工程塑料股份有限公司_202311855283.3

实现相关技术

优化设计软件中灵巧约束的实现装置_中国科学院长春光学精密机械与物理研究所_202410420445.9

一种实现数据采集高可用的系统_苏州洲邦信息科技有限公司_202311851031.3

可实现旋钮及摇杆操控的换挡手柄总成_陕西国力信息技术有限公司_201910497295.0

一种实现工装快速定位的旋钮柱塞_深圳市维奇精密机械有限公司_202323099188.3

一种实现多种专线业务停复机方法_北京直真科技股份有限公司_202410205152.9

一种自动判定司机绕路的实现方法_首约科技(北京)有限公司_202410100452.0

用于实现车辆控制的通信方法及装置_北京小米移动软件有限公司_202380012844.5

端智能体验实现方法、装置、介质及设备_浙江口碑网络技术有限公司_202410417291.8

基于Aggregators的在线支付网关实现方法及系统_浪潮通信信息系统(天津)有限公司_202410148570.9

一种加解密实现方法及装置_北京宏思电子技术有限责任公司_202410411737.6

龙图腾网&IPTOP

【发明授权】一种基于注意力和循环PPO实现的导航决策方法_三峡大学_202310455925.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务