买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于注意力和循环PPO实现的导航决策方法_三峡大学_202310455925.4 

申请/专利权人:三峡大学

申请日:2023-04-25

公开(公告)日:2024-04-30

公开(公告)号:CN116592883B

主分类号:G01C21/20

分类号:G01C21/20;G06T9/00;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2023.09.01#实质审查的生效;2023.08.15#公开

摘要:一种基于注意力和循环PPO实现的导航决策方法,它包括以下步骤:步骤1:智能体与环境交互获取环境图像数据信息;步骤2:对获取的图像信息进行编码,压缩状态信息,提高训练效率;步骤3:构建多核卷积神经网络模块对环境信息进行初步特征提取;步骤4:构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;步骤5:将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;步骤6:智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池;步骤7:随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新。

主权项:1.一种基于注意力和循环PPO实现的导航决策方法,其特征在于,它包括以下步骤:步骤1:智能体与环境交互获取环境图像数据信息;步骤2:对获取的图像信息进行编码,压缩状态信息,提高训练效率;步骤3:构建多核卷积神经网络模块对环境信息进行初步特征提取;步骤4:构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;步骤5:将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;步骤6:智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池;步骤7:随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新;由步骤3至步骤5构建ARPPO模型,ARPPO模型的结构为:编码特征提取卷积模块的第一卷积层1→编码特征提取卷积模块的第二卷积层2→编码特征提取注意力模块的多头注意力层3→编码特征提取注意力模块的第一全连接层4→编码特征提取注意力模块的第一丢弃层5→编码特征提取注意力模块的第二全连接层6→编码特征提取注意力模块的第一标准化层7→编码特征提取注意力模块的第二标准化层8→编码特征提取注意力模块的第二丢弃层9→编码特征提取注意力模块的第三丢弃层10→编码特征提取循环神经网络模块的LSTM层11;编码特征提取循环神经网络模块的LSTM层11→策略选择Actor网络模块的第一全连接层12→策略选择Actor网络模块的第二全连接层13;编码特征提取循环神经网络模块的LSTM层11→状态价值评估Critic网络模块的第一全连接层14→动作价值评估Critic网络模块的第二全连接层15;ARPPO模型在工作时,采用以下步骤:1从环境中获取的初始状态信息,使用卷积网络模块对图像编码信息进行初步特征提取,通过第一卷积层1与第二卷积层2,提取数据的深层多维信息;2将提取出的深层多维信息输入到注意力模块中;首先输入至多头注意力层3中捕捉信息的关联性,在多个不同位置上提取特征信息中重要且关键的信息并拼接,然后通过编码特征提取注意力模块的第一全连接层4、第一丢弃层5进行特征处理并选择丢弃一部分数据防止出现过拟合现象,接着编码特征提取注意力模块的第二全连接层6实现上一层全连接层的残差连接,使用第一标准化层7、第二标准化层8进行层归一化处理,解决层与层之间梯度的稳定性问题,最终再通过第二丢弃层9、第三丢弃层10丢弃部分数据,防止过拟合;3将注意力模块输出的特征信息输入到循环神经网络模块的LSTM层11,通过引入LSTM网络提取数据的时域特性,使得智能体在探索过程中形成长时记忆;4最后将循环神经网络模块的输出特征输入到Actor网络模块与Critic网络模块,Actor网络模块通过策略选择Actor网络模块的第一全连接层12进行特征信息综合,接着通过策略选择Actor网络模块的第二全连接层13获取智能体所采取的动作及其概率分布,Critic网络模块使用状态价值评估Critic网络模块的第一全连接层14综合特征信息,最后使用状态价值评估Critic网络模块的第二全连接层15对智能体所处当前状态进行价值评分。

全文数据:

权利要求:

百度查询: 三峡大学 一种基于注意力和循环PPO实现的导航决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。