买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种山地茂林环境无人机通信资源与悬停位置规划方法_北京理工大学长三角研究院(嘉兴);北京理工大学_202310871370.1 

申请/专利权人:北京理工大学长三角研究院(嘉兴);北京理工大学

申请日:2023-07-17

公开(公告)日:2024-03-22

公开(公告)号:CN116684852B

主分类号:H04L41/14

分类号:H04L41/14;H04W4/40;H04W24/02;H04W4/029;H04W72/50;H04L41/16

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2023.09.19#实质审查的生效;2023.09.01#公开

摘要:本发明公开了一种山地茂林环境无人机通信资源与悬停位置规划方法,涉及无人机通信技术领域,包括以下步骤,建立无人机辅助无线通信系统的系统模型,在建立系统模型的基础上,确定目标函数和约束,列出优化问题,针对优化问题提出算法,整体算法。本发明较传统强化学习方法,有效降低了动作空间维度,降低了计算复杂度;通过强化学习方法进行无人机悬停定位优化,有效避免了复杂信道模型导致的非凸性与较高的计算复杂度。

主权项:1.一种山地茂林环境无人机通信资源与悬停位置规划方法,其特征在于,包括以下步骤:步骤一:建立无人机辅助无线通信系统的系统模型该无人机辅助无线通信系统由一架旋翼无人机和K个下行地面传感器节点组成,将无人机作为通信基站,下行地面传感器节点表示为集合OFDMA技术用于提供无人机和传感器之间的通信,系统带宽被平均分成NF个子载波,这些子载波表示为集合在笛卡尔坐标系中,假设无人机悬停在空中,其位置用x,y,z表示;定义业务节点k固定于三维空间中坐标处,由此,利用距离计算公式表示无人机与业务节点k间的距离dk;利用仰角计算公式表示无人机与业务节点k间的仰角βk;考虑到山地茂林环境导致的多径传播环境,将无人机与业务节点之间的信道建模为遵循频率平坦的莱斯衰落信道模型,该信道中的莱斯因子建模为指数函数;此外,在山地茂林的复杂环境中,由于散射环境的变化,信道可能会随时间变化,为了简化设计,我们将总通信时间T划分为NT个等长的时隙,即δt=TNT,且δt足够小到使得每个时隙内无人机与业务节点之间的信道视为恒量,进一步,将n作为时隙指标,该集合表示为因此,利用单球规则几何信道模型表示处于时隙n时子载波m上无人机与业务节点k的莱斯衰落信道模型;为了模拟山地茂林环境下的,业务节点周围的复杂散射环境,我们假设等效散射体分布在球面上;也就是说,对于业务节点k,我们假设Nk个等效散射体分布在以业务节点k为中心,以rk为半径的球面上;另外,用表示业务节点k周围的等效散射体i,当子载波m在时隙n处用于服务业务节点k时,利用信道分量计算公式表述NLoS信道分量步骤二:在建立系统模型的基础上,确定目标函数和约束,列出优化问题:定义来表示在时隙n处子载波m是否分配给业务节点k,即当时,子载波m分配给业务节点k;时则相反;为了避免多址干扰,给出了每个子载波最多只能服务于一个传感器节点的约束;因此,在子载波m上处于时隙n时,无人机与业务节点k间的通信速率表示为: 其中为时隙n时子载波m在业务节点k处接收到的信噪比;定义在时隙n时服务于业务节点k的子载波m的通信功率为则将表示为: 其中σ2表示每个子载波上加性噪声的功率;由此,系统的吞吐量表示为: 基于步骤二的分析,将该优化问题表述为以下形式: 其中为业务节点k能够正常通信的最小通信速率;Pmax表示无人机的最大通信功率;和分别为通信调度变量和所有子载波传输功率变量的集合;约束C1是为了保证业务节点k的最小传输速率,约束C2和C3是为了保证在任意时隙中,每个子载波最多分配给一个业务节点用于无人机通信;约束C4和C5为无人机发射功率的约束;步骤三:针对优化问题提出算法步骤二表示的优化问题是一个通常难以求解的混合整数非凸问题;为降低计算复杂度,我们通过分别固定无人机的位置和资源分配策略,将该复杂问题转化为两个子问题:子问题Ⅰ为给定无人机定位下的最优通信资源分配问题,子问题Ⅱ为给定的资源分配策略下的无人机定位优化问题;子问题Ⅰ:通信资源分配优化基于上述问题,在无人机的位置x,y,z固定的情况下,子问题Ⅰ表示为如下形式: 通过引入辅助变量和将二元变量进行松弛,将上述问题转化为如下的优化问题: 其中 该问题满足强对偶性,通过求解该问题的对偶问题得到该问题的最优解;上述问题的拉格朗日函数可如下表示: 其中分别表示约束C3、的拉格朗日乘子;在考虑最优解时,约束条件和被纳入到KKT条件中,上述问题的对偶问题可如下表示: s.t.α,β,ε≥0, 通过对偶分解,将对偶问题分为两层,并进行迭代求解,得到对偶问题的解:第一层,在给定拉格朗日乘子α,β,ε的条件下,通过优化子载波分配和通信功率来最大化拉格朗日函数;第二层,对于给定的子载波分配和通信功率通过优化拉格朗日乘子α,β,ε来最小化拉格朗日函数;对于第一层进行求解:定义和为子问题Ⅰ的最优解;令则时隙n处对于业务节点k在子载波i上的最优功率分配可由如下表示: 拉格朗日乘子αk[n]和ε[n]分别保证了在上述问题达到最优解时,满足业务节点的最小通信速率约束和无人机的最大发射功率约束根据KKT条件,下式在上述问题的最优点成立: 通过对拉格朗日函数关于求导得到最优子载波分配,其表达式为: 由于上述公式与无关,综合考虑约束C3后,无人机在每个时隙n的子载波m上的最优业务节点调度为: 对于第二层进行求解:为了上述式中的与以拉格朗日乘子为变量的最小化问题,采用梯度法更新拉格朗日乘子, 式中,l1≥1为子问题Ⅰ的迭代指标,δul1,u∈{1,…,3}为步长;因此,子问题Ⅰ通过迭代更新拉格朗日乘子和资源分配变量来求解;子问题Ⅱ:无人机定位优化基于上述问题,在给定无人机通信资源分配策略的情况下,子问题II表示为如下形式: 传统优化方法处理子问题II的复杂度较高;因此,为了及时获得无人机悬停位置决策,我们使用强化学习对该优化问题进行变换,然后设计了一种基于DDPG的解决算法;具体来说,控制器执行智能体的角色,控制器之外的东西都被视为环境;定义SRL为环境状态空间;对于每个属于SRL的状态sRL,智能体都会根据当前的策略π从动作空间A中选择资源分配动作a,其中π代表了从SRL到A的映射;通过在环境中执行,将奖励r返回给智能体并用于指导策略更新,直到获得最优策略;处于状态时,我们将环境状态表示为: 分别用Δx、Δy、Δz表示无人机在x、y、z轴正方向上的移动距离,则通过以下等式表示智能体采取的动作aq:aq=Δx,Δy,Δz当智能体根据接收到的奖励r更新策略π时,为了获得能够实现原问题中目标函数的最优策略,两个奖励定义如下: 即下一个状态下业务节点的总吞吐量与当前状态总吞吐量之差表示在状态下执行动作aq的奖励;由于原问题中的动作空间A是连续的,而每个动作的空间尺度超出平均范围,因此对A进行离散化是不可行的;换句话说,对于离散状态和动作空间的DQN等强化学习方法在这里不适用;因此,DDPG作为一种结合了策略梯度和DQN优点的强化学习方法,用来解决变换后的连续动作空间问题;在DDPG算法下,智能体由策略网络和价值网络组成,两者均由两个深度神经网络DNN实现,即目标网络和评估网络;对于输入环境状态,策略网络做出一个动作决策,审阅者使用Q函数为每一对状态动作分配一个值;其中,标准Q函数由下式给出: 其中rq表示智能体与环境交互后返还给智能体的即时奖励,定义为业务节点的总吞吐量,γ是rq的折现因子;基于DDPG的解决方案包括两个阶段:训练和推理;其中,训练阶段为离线执行阶段;为了避免训练阶段使用的过渡组之间的相关性降低收敛速度,DDPG算法采用了经验回放技术;首先将M条变换数据存储在回放记忆缓冲区中,然后从缓冲区中随机抽取少量数据训练DDPG模型来更新策略网络和价值网络的参数,直到收敛;具体而言,参与者评估网络参数矩阵θμ沿着方向更新,其中表示关于θμ的导数,且Jθμ为策略目标函数;类似地,价值网络的网络参数矩阵θQ在方向上更新以最小化损失,其中LθQ=E[Qs,a|q-rt+γQ′s,a|q+12],Q′·代表目标函数的Q函数;智能体对两个目标网络参数进行如下的更新:θμ′=κaθμ+1-κaθμ′,θQ′=κcθQ+1-κcθQ′,其中κa<<1,κc<<1;步骤四:整体算法基于两个子问题对应的算法1和算法2,我们提出算法3来解决联合优化问题:初始化最大迭代次数迭代次数l3和误差门限重复以下操作直至问题收敛或迭代次数达到最大:对于给定的通信资源分配,利用算法2得到无人机的最优定位x*,y*,z*;对于给定的无人机定位,利用算法1得到最优的通信资源分配B*和P*;令l3=l3+1,得到无人机通信资源分配策略无人机定位策略

全文数据:

权利要求:

百度查询: 北京理工大学长三角研究院(嘉兴);北京理工大学 一种山地茂林环境无人机通信资源与悬停位置规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。