买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于强化学习的空地网络协同覆盖方法_香港中文大学(深圳);中国移动通信集团广东有限公司_202311292173.0 

申请/专利权人:香港中文大学(深圳);中国移动通信集团广东有限公司

申请日:2023-10-08

公开(公告)日:2024-04-12

公开(公告)号:CN117082536B

主分类号:H04L41/16

分类号:H04L41/16;H04W16/18;H04W16/22

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2023.12.05#实质审查的生效;2023.11.17#公开

摘要:本发明公开了一种基于强化学习的空地网络协同覆盖方法,包括以下步骤:S1.获取基站的地理位置和基站参数域;所述地理位置即基站的经纬度信息;所述基站参数域包括基站参数种类和每一种基站参数的范围;S2.基于无人机实测数据,获得基站在不同基站参数下的低空和地面的覆盖情况,并形成三维天线方向图;S3.将空地网络协同问题建模成强化学习任务,并基于强化学习得到寻找基站参数配置最佳状态,从而实现空地网络协同覆盖。本发明通过通过获取基站配置参数与基站覆盖的关系,继而构建强化学习任务在基站参数域中寻找最佳的基站配置,实现低空与地面的协同覆盖。

主权项:1.一种基于强化学习的空地网络协同覆盖方法,其特征在于:包括以下步骤:S1.获取基站的地理位置和基站参数域;所述地理位置即基站的经纬度信息;所述基站参数域包括基站参数种类和每一种基站参数的范围;S2基于无人机实测数据,获得基站在不同基站参数下的低空和地面的覆盖情况,并形成三维天线方向图;S3.将空地网络协同问题建模成强化学习任务,并基于强化学习得到寻找基站参数配置最佳状态,从而实现空地网络协同覆盖;所述步骤S3包括:S301.建立强化学习任务,任务包含以下场景环境信息:基站周边地图M;多基站坐标PBS={P1...Pn};各基站天线配置SBS={S1...Sn},Si={zSSBi,hi,bi,ai,vi},bi为波束具体配置,包括3dB波束宽度,ai为天线水平方向角;vi为天线下倾角;同时,在无人机实测信号质量时采集的基站周边三维地理信息,通过三维点云重建各基站周边三维场景G={x1,y1,z1,n1,...,xi,yi,zi,ni},xi,yi,zi,ni为场景中各点坐标以及该坐标点的底噪;环境信息建立完成后,在强化学习任务中建立一个与环境相互作用的智能体,基于上述建立的强化学习任务,该智能体为目标航线段内的所有服务基站,智能体的行动空间A为目标航线段内所有基站的可调参数空间的组合;at∈A为智能体当前时刻t基于下一状态的预期函数所采取的行动,即基站参数调整策略;状态空间S为基于天线配置的基站覆盖分布,st∈S为当前智能体状态,即基站参数配置,空间大小为8*N*K*J,st+1为采取at后的智能体状态,即调整后的基站参数配置;强化学习智能体建立后,需要进行奖惩函数的设置,强化学习任务最终目标为最大化累积折扣奖励为: 折扣因子γ∈[0,1]在此强化学习任务策略中,任务目标为对目标航线段上所有位置x的最大化平均覆盖质量,Kavg为在目标航线段上的N个采样点的低空与地面网络覆盖质量和的平均值,同时也为此强化学习任务的即时奖励r’: 其中KGx,KAx分别表示地面与低空网络在x位置的覆盖质量,由当前智能体当前时刻t的状态st所对应的所有基站小区的参数配置所生成的天线方向图仿真得到,RSRP为x位置的信号强度,s为x位置的主服务基站小区,N0x为x位置环境噪声,为其他基站小区对当前位置信号的干扰;为低空采样点由于地面用户上行信号而产生的信号干扰;Ps,Pb与Pu分别为服务小区发射功率,邻区发射功率以及地面干扰终端发射功率;采样点x的信号衰减由以下公式生成,其中gix为天线i在位置x的信号强度,由所述天线方向图仿真方法生成,Lfc,d为载波频率fc,传播距离d后的传播衰减: S302.基于步骤S301中的强化学习任务,建立DQN网络,以计算拟合智能体在一种状态s下可采取的各种行动a对应的折扣奖励rs,a,折扣奖励r通过目标航线段上的N个采样点的低空与地面网络覆盖质量和的平均值乘Kavg折扣因子γ得到,DQN网络建立与训练方法具体如下:建立结构相同的DQN主网络与DQN目标网络,使用全连接层作为网络的隐藏层,对网络权值进行初始化,同时初始状态采用均匀随机行动,并以概率参数ε的贪婪算法进行策略选择;对网络权值进行初始化,同时初始状态采用均匀随机行动,并以概率参数ε的贪婪算法进行策略选择;初始化回放缓存区,放入已知的转移参数样本st,at,rt,st+1并保存,由当前系统状态,当前状态采取的行动,当前状态的即时回报,系统下一个状态四个参数组成,当作DQN网络的已知经验;S303.训练DQN网络,从回放缓存区中以均匀分布随机抽取转移参数样本计算两种Q值:直接计算目标Q值Qtarget=r+γ·maxQst+1,at+1;w,其中r为状态st采取at的回报,at+1为状态st+1时能获得最大Q值的行动;训练拟合预测Q值,计算过程为:Qpredict=Qst,at;w,Qmain为在st状态下采取at行动,DQN网络在w权值下的通过神经网络拟合的Q值;采用Qtarget和Qpredict均方差损失函数计算,利用反向传播算法训练DQN主网络,把每次训练得到的新转移参数样本st,at,rt,st+1存入回放缓存区,并随机清理回放缓存区;每经过一定数量的迭代训练之后将DQN主网络权重w赋给DQN目标网络,然后继续从回放缓存区中以均匀分布随机抽取转移参数样本用于DQN主网络训练,直到DQN目标网络收敛,停止更新,输出DQN目标网络,得到近似每一状态的最佳行动值,继而采取最优贪婪策略寻找基站参数配置最佳状态,因为已经训练得到了每一状态的最佳行动值,所以采用最优贪婪策略,只考虑当前状态s下的能得到最大Q值的最佳行动a。

全文数据:

权利要求:

百度查询: 香港中文大学(深圳);中国移动通信集团广东有限公司 一种基于强化学习的空地网络协同覆盖方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。