申请/专利权人:三峡大学
申请日:2023-04-25
公开(公告)日:2024-04-30
公开(公告)号:CN116592883B
主分类号:G01C21/20
分类号:G01C21/20;G06T9/00;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2024.04.30#授权;2023.09.01#实质审查的生效;2023.08.15#公开
摘要:一种基于注意力和循环PPO实现的导航决策方法,它包括以下步骤:步骤1:智能体与环境交互获取环境图像数据信息;步骤2:对获取的图像信息进行编码,压缩状态信息,提高训练效率;步骤3:构建多核卷积神经网络模块对环境信息进行初步特征提取;步骤4:构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;步骤5:将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;步骤6:智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池;步骤7:随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新。
主权项:1.一种基于注意力和循环PPO实现的导航决策方法,其特征在于,它包括以下步骤:步骤1:智能体与环境交互获取环境图像数据信息;步骤2:对获取的图像信息进行编码,压缩状态信息,提高训练效率;步骤3:构建多核卷积神经网络模块对环境信息进行初步特征提取;步骤4:构建注意力模块与LSTM的结合网络对特征信息进行筛选与压缩,获取重要且关键的信息;步骤5:将经过模型提取的重要历史信息输入到actor网络获取动作,输入到critic网络评估价值;步骤6:智能体根据actor网络所得概率矩阵选取动作,与环境交互一定次数后,数据存入经验池;步骤7:随机抽取batch_size大小的数据进行训练,计算损失函数,进行梯度裁剪,最终通过反向传播进行参数更新;由步骤3至步骤5构建ARPPO模型,ARPPO模型的结构为:编码特征提取卷积模块的第一卷积层1→编码特征提取卷积模块的第二卷积层2→编码特征提取注意力模块的多头注意力层3→编码特征提取注意力模块的第一全连接层4→编码特征提取注意力模块的第一丢弃层5→编码特征提取注意力模块的第二全连接层6→编码特征提取注意力模块的第一标准化层7→编码特征提取注意力模块的第二标准化层8→编码特征提取注意力模块的第二丢弃层9→编码特征提取注意力模块的第三丢弃层10→编码特征提取循环神经网络模块的LSTM层11;编码特征提取循环神经网络模块的LSTM层11→策略选择Actor网络模块的第一全连接层12→策略选择Actor网络模块的第二全连接层13;编码特征提取循环神经网络模块的LSTM层11→状态价值评估Critic网络模块的第一全连接层14→动作价值评估Critic网络模块的第二全连接层15;ARPPO模型在工作时,采用以下步骤:1从环境中获取的初始状态信息,使用卷积网络模块对图像编码信息进行初步特征提取,通过第一卷积层1与第二卷积层2,提取数据的深层多维信息;2将提取出的深层多维信息输入到注意力模块中;首先输入至多头注意力层3中捕捉信息的关联性,在多个不同位置上提取特征信息中重要且关键的信息并拼接,然后通过编码特征提取注意力模块的第一全连接层4、第一丢弃层5进行特征处理并选择丢弃一部分数据防止出现过拟合现象,接着编码特征提取注意力模块的第二全连接层6实现上一层全连接层的残差连接,使用第一标准化层7、第二标准化层8进行层归一化处理,解决层与层之间梯度的稳定性问题,最终再通过第二丢弃层9、第三丢弃层10丢弃部分数据,防止过拟合;3将注意力模块输出的特征信息输入到循环神经网络模块的LSTM层11,通过引入LSTM网络提取数据的时域特性,使得智能体在探索过程中形成长时记忆;4最后将循环神经网络模块的输出特征输入到Actor网络模块与Critic网络模块,Actor网络模块通过策略选择Actor网络模块的第一全连接层12进行特征信息综合,接着通过策略选择Actor网络模块的第二全连接层13获取智能体所采取的动作及其概率分布,Critic网络模块使用状态价值评估Critic网络模块的第一全连接层14综合特征信息,最后使用状态价值评估Critic网络模块的第二全连接层15对智能体所处当前状态进行价值评分。
全文数据:
权利要求:
百度查询: 三峡大学 一种基于注意力和循环PPO实现的导航决策方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。