申请/专利权人:中国人民解放军国防科技大学
申请日:2022-10-31
公开(公告)日:2022-11-25
公开(公告)号:CN115392444A
主分类号:G06N3/04
分类号:G06N3/04;G06N3/08;G06N5/02;G05B13/04
优先权:
专利状态码:有效-授权
法律状态:2022.12.30#授权;2022.12.13#实质审查的生效;2022.11.25#公开
摘要:本申请涉及一种基于强化学习的无人机知识模型组合的参数寻优方法。所述方法包括:利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;根据原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络;根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,根据每个原子动作的评价值对预先构建的参数优化网络进行训练,利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。采用本方法能够提高无人机知识模型组合准确率。
主权项:1.一种基于强化学习的无人机知识模型组合的参数寻优方法,其特征在于,所述方法包括:获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本;所述无人机知识模型组合对应的超参数作为组合动作;所述无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作;对所述组合动作进行结构化分解,得到多个一维原子动作;利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用所述组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,根据所述原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络;根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对所述初始原子动作评价网络进行训练,得到训练好的原子动作评价网络;利用所述训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值;根据所述每个原子动作的评价值对预先构建的参数优化网络进行训练,得到训练好的参数优化网络;利用所述训练好的参数优化网络对所述待优化的无人机知识模型组合的参数进行优化。
全文数据:
权利要求:
百度查询: 中国人民解放军国防科技大学 基于强化学习的无人机知识模型组合的参数寻优方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。