买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于深度Q网络的智能无人机集群编队协同控制方法_中北大学_202410085735.2 

申请/专利权人:中北大学

申请日:2024-01-22

公开(公告)日:2024-04-19

公开(公告)号:CN117908581A

主分类号:G05D1/695

分类号:G05D1/695;G05D109/20

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.07#实质审查的生效;2024.04.19#公开

摘要:本发明涉及无人机控制技术领域,尤其涉及一种基于深度Q网络的智能无人机集群编队协同控制方法,解决了现有无人机集群编队控制模型存在模型构建过程繁琐、训练工作量大、精度不能满足需求、实时性较差的技术问题,其包括建立智能无人机集群编队系统状态方程;建立智能无人机集群编队系统状态方程;训练基于马尔可夫框架的智能无人机集群编队协同控制模型,最终得出僚机的最佳动作。本发明所述方法不需要繁琐的建模过程,且对智能无人机集群编队协同控制模型的训练工作量大大减少,在与环境的持续交互中可学习控制策略并更新网络参数,实时性较好;可提高算法的航迹点协同迭代求解能力,解决无人机编队的协同控制等问题。

主权项:1.基于深度Q网络的智能无人机集群编队协同控制方法,其特征在于,步骤为:步骤S1、建立智能无人机集群编队系统状态方程,其子步骤为:步骤S11、先建立单个智能无人机质心运动方程;假设智能无人机保持恒定高度,则将智能无人机模型简化为四个自由度,为了弥补简化所造成的损失,并考虑环境扰动的影响,在位置、速度V和姿态三个子状态中引入随机性,得到的单个智能无人机质心运动方程为: (1),式(1)中、、分别为无人机的位置、航向角、滚转角;ξ为包括x、y、ψ和的随机状态,是重力加速度;、、表示状态变量的扰动,扰动样本中所有数据点均服从正态分布;表示滚转角与期望值之间的关系,其利用二阶系统响应模拟智能无人机滚转通道的动态响应;步骤S12、根据单个智能无人机质心运动方程建立智能无人机集群编队系统的状态方程;在惯性坐标系中,坐标和表示长机的惯性系统,和表示僚机的惯性系统;在速度坐标系中,和表示以僚机为参考的坐标系中长机和僚机之间的相对距离,和代表长机和僚机的速度,和表示长机和僚机的滚转角,和分别表示长机和僚机的航向角;根据长机和僚机的质心运动方程以及其在智能无人机集群编队中的相对关系,可得智能无人机集群编队单元的运动学模型为: (2),式(2)中,S1是长机与僚机的航向角之差;S2是长机的滚转角,S4为长机的滚转角的期望值,S3表示僚机的滚转角;S5和S6是长机和僚机在x、y方向上的相对位置差;步骤S2、利用马尔可夫框架定义智能无人机集群编队协同控制模型,其中马尔可夫框架为MDP;MDP通过五元数组表示为,其中S表示状态空间,其根据长机和僚机的姿态和相对位置进行划分;A表示动作空间,其由僚机滚转角的控制指令组成;R表示与动作空间和状态空间关联的回报函数,P表示状态转移概率;J表示控制决策的优化目标函数,MDP的状态转移概率P表示为: (3)式(3)中,表示在给定状态下执行动作时,从状态转换到另一个状态的概率;在智能无人机协同控制过程中,MDP的状态空间S参数的选择包括了长机和僚机之间的相对位置和姿态方面;MDP的其他四个参数根据预期的任务目标进行设置;动作空间A包含了滚转角可选动作;回报函数R是通过测量编队单元内部不同智能无人机的实时相对位置来建立的;状态转移概率P取决于智能无人机在执行行动后的状态变化;目标函数J表示总的回报值,J*表示最优回报值: (4)式(4)中,为回报折扣系数,是时间的回报值;步骤S21、定义智能无人机集群编队协同控制模型中基于马尔可夫框架的状态空间;智能无人机集群编队协同控制模型的状态空间可用多维数组表示,系统的状态空间用来表征长机和僚机之间的相对空间位置和姿态关系,在实际工程应用中,长机的控制命令是由飞控系统根据长机与僚机的相对位置关系确定的,其中僚机的控制指令由系统相对运动关系确定;为了使公式(2)所述的运动学模型具有对各种输入的适应性,在训练过程中使用随机函数生成长机的控制命令,以模拟系统输入的不确定性;智能无人机集群编队基于马尔可夫框架的状态空间定义为:,其中S1~S6对应公式(2)中的六个变量;步骤S22、定义智能无人机集群编队协同控制模型中基于马尔可夫框架的动作空间;智能无人机的控制是通过改变其滚转角来实现的,动作空间包括跟随智能无人机的滚转角指令,考虑到智能无人机的最大加速度,并需要防止因控制命令突然变化,而导致干扰智能无人机的飞行,僚机可采取的动作空间表示为: (5)式(5)中,表示第i个无人机所选滚转动作,m为智能无人机的数量,为僚机滚转角度的潜在动作上限;为防止滚转指令过大,对其进行限制,具体可描述为: (6)式(6)中,表示与僚机的滚转角度相关联的阈值,;步骤S23、定义智能无人机集群编队协同控制模型中基于马尔可夫框架的回报函数;由于智能无人机集群编队队形保持的需要,编队单元中的每个智能无人机都应该与相邻智能无人机保持一定的安全距离;每个僚机在智能无人机集群编队单元中所获得的回报值取决于长僚机之间的距离;编队单元中的僚机将根据获得的回报值调整各自的状态,则智能无人机集群编队协同控制模型的回报函数表示为: (7)式(7)中为即时回报,、分别是长僚机安全距离的最大值和最小值;是僚机和安全边界之间的距离,是用来调整权重的因子,是长机和僚机之间的距离;步骤S3、训练步骤S2中的基于马尔可夫框架的智能无人机集群编队协同控制模型;将僚机映射为训练时强化学习中的智能体,智能体在与环境的持续交互中学习控制策略并更新网络参数;僚机获取长机的状态信息和自身的状态信息,并将长机的状态信息和自身的状态信息组合形成联合系统的状态空间,再将联合系统的状态空间输入到深度Q网络中;深度Q网络进行动作选择时采取-模仿策略,最后深度Q网络输出僚机的动作空间的控制指令,动作空间的控制指令包括滚转角控制指令,将僚机的滚转角控制指令输入公式(2)对应的智能无人机集群编队的运动学模型中,得到包含长机和僚机的下一时刻状态信息的联合系统的新的状态空间;还得到与动作空间和状态空间关联的回报函数的值,在交互过程中产生的都保存在深度Q网络的经验池中;在每个时间步,从经验池中进行随机抽样,更新深度Q网络的网络参数;当每轮时间步长达到一定步数时,当前深度Q网络的训练结束,并开始下一轮训练;最终得出僚机的最佳动作。

全文数据:

权利要求:

百度查询: 中北大学 基于深度Q网络的智能无人机集群编队协同控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。