首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于强化学习的智能飞行器群体组建与重构方法_北京临近空间飞行器系统工程研究所_202410048119.X 

申请/专利权人:北京临近空间飞行器系统工程研究所

申请日:2024-01-12

公开(公告)日:2024-05-17

公开(公告)号:CN118052271A

主分类号:G06N3/092

分类号:G06N3/092;G06F30/20;G06N3/006;G06F30/27

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.06.04#实质审查的生效;2024.05.17#公开

摘要:本发明提出一种基于强化学习的智能飞行器群体组建与重构方法,属于人工智能技术领域,包括如下步骤:S1、基于强化学习的蜂群自组织;先进行作战任务分析,再进行杀伤链要素解析,在杀伤链要素解析的基础上,完成基于强化学习的作战单元自组织;采取基于深度强化学习的组织结构自学习方式针对每个特定任务形成特定组织结构,使用专家知识系统形成迁移学习与强化学习结合的方式,用收集的专家数据行为,约束智能体的探索性行为;S2、蜂群杀伤链路径动态优化,完成蜂群杀伤链路径规划任务;S3、自适应对抗演练与高质量博弈决策,通过实验结果验证模型合理性与先进性。本发明解决了现有技术无法求解蜂群最优组合,限制了蜂群最大作战效能发挥的问题。

主权项:1.一种基于强化学习的智能飞行器群体组建与重构方法,其特征在于,包括如下步骤:S1、基于强化学习的蜂群自组织包括作战任务分析、杀伤链要素解析和基于强化学习的作战单元自组织;S1.1、作战任务分析融合作战单元携带的蜂群中各项信息,实现对战场环境的全部探测,在实现共享目标信息、任务信息及指挥控制信息的基础上,组合形成信息网;S1.2、杀伤链要素解析预定义蜂群中的各项行为,将蜂群的行为分类为跟随、回避、攻击,将不同的作战单元预划分为不同种类的作战方式;采用四元素构造策略信息描述,分别为策略类型、选中单元、策略目标、执行动作序列;在作战方式预定义的基础上,对每一个作战单元的作战能力进行评估,为形成组织结构后的杀伤链作战能力解析作战方式,评估作战能力;策略类型表示下次输出动作的类型;选中单元为执行动作的单元;策略目标表示选择执行动作的目的地和对象;执行动作序列表示是否马上进行该动作,对于执行动作的人物的行为序列;S1.3、在杀伤链要素解析模块的基础上,完成基于强化学习的作战单元自组织模型以五元组S,A,P,R,γ描述,在一个离散时间步t=0,1,2,3..中,在每一个t,智能体接收到环境状态的描述st∈S,S是环境中所有可能的状态空间,在当前的环境状态st基础上,模型选择一个动作at∈Ast,Ast代表在状态st时所有可行的动作区间,执行该动作at后,时间步跳转到t+1,智能体在该状态下获取到新的状态st+1,同时,环境反馈一个奖励值rt+1∈R;在每一个时间t,智能体接收到的环境状态到选择相应动作之间的映射称为策略,用π表示,πa|s=p[At=a|St=s]表示在给定环境状态St=s的情况下,策略网络选择动作At=a的概率;奖励值函数为在系统采取策略时,在给定环境状态的情况下,智能体采用策略π时的期望奖励值;公式如下: 式中,γ表示时间折扣,即不同时间步的奖赏在当前时间步的不同权重;在强化学习的训练过程中,智能体的目的即为让环境反馈的奖励值最大;采取基于深度强化学习的组织结构自学习方式针对每个特定任务形成特定组织结构,使用专家知识系统形成迁移学习与强化学习结合的方式,用收集的专家数据行为,约束智能体的探索性行为,缩小策略空间;S2、蜂群杀伤链路径动态优化根据作战任务、战场环境和作战单元的性能,为蜂群中每一个作战单元制定有序任务序列,在避免资源冲突达到整体最优;针对飞行器的特点及战场环境的约束进行建模,约束不同因素完成蜂群杀伤链路径规划任务;S3、自适应对抗演练与高质量博弈决策首先搭建一套基于红蓝对抗的即时战略平台,利用该仿真推演平台综合处理战场反馈数据与作战单元蜂群对战决策,让蜂群组建与重构模型依托推演平台完成基于逆向强化学习的自我博弈,通过实验结果验证模型合理性与先进性。

全文数据:

权利要求:

百度查询: 北京临近空间飞行器系统工程研究所 一种基于强化学习的智能飞行器群体组建与重构方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。