买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法_南京邮电大学_202210110869.6 

申请/专利权人:南京邮电大学

申请日:2022-01-29

公开(公告)日:2023-08-04

公开(公告)号:CN114423028B

主分类号:H04W24/02

分类号:H04W24/02;H04W28/02;H04W52/02

优先权:

专利状态码:有效-授权

法律状态:2023.08.04#授权;2022.05.20#实质审查的生效;2022.04.29#公开

摘要:基于多智能体深度强化学习的CoMP‑NOMA协作成簇与功率分配方法,区分边缘用户和中心用户,并在此基础上进行以小区为中心的NOMA用户分簇,与传统方法相比,大大提高了系统的频谱效率;提出了一种功率划分方法,根据每个用户的解码顺序设计功率范围;通过对网络输出进行相应的线性变换,使得用户功率在最大基站功率约束的情况下满足SIC解码的必要条件,从而达到辅助MADDPG网络,加快网络收敛的效果。

主权项:1.基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法,其特征在于:包括以下步骤:步骤1,状态获取:在时刻t,根据用户到各自小区基站的距离将用户分成中心用户和边缘用户;然后,获取小区内所有用户到各个小区基站的信道增益信息作为当前状态st;所述步骤1的具体步骤为:在t时刻,基站获取所有用户的信道增益信息,则当前时刻下的状态st表示为当前时刻所有用户到所有小区基站的信道增益;根据用户到各自小区基站的距离将用户分成中心用户mnc和边缘用户mc;定义用户m到各小区基站的距离为其中表示用户m到本小区的距离,K={1,2,...,K}为小区的集合,同时定义gm,kt表示用户m和基站k之间的通道增益;对用户m进行如下判断: 其中r为小区的半径;DQN和MADDPG网络在t时刻的st分别表示如下: 其中K为整个小区的总数,N为每个簇内的小区数,为小区分簇后的总簇数,Mc为中心用户的总数,和为第z个簇内中心用户和边缘用户的总数;为边缘用户mc与基站k之间的信道增益;为第z个簇内的中心用户边缘用户与簇内基站n之间的信道增益;步骤2,小区分簇:得到状态st后,采用DQN方法为所有用户选择最优的小区分簇方案所述步骤2的具体步骤为:得到st后,使用DQN将K个小区进行分簇,每个簇内最大包括N个小区,则K个小区将被分成个簇;C={C1,C2,...CZ}表示小区的分簇情况,其中Cz表示第z类簇的小区基站索引集合;同一簇内的小区合作共同服务改簇内的所有边缘用户,中心用户则仅由本小区的基站服务;同一小区内的用户将形成同一NOMA簇并且这些NOMA簇的交集为该簇内所有的边缘用户;规定簇内所有的边缘用户都先于中心用户解码;DQN中包含两个深度神经网络,即训练网络和目标网络ω和ω-为神经网络参数;小区分簇DQN单元遵循ε-greedy策略从所有小区分簇方案中选择一个作为当前的最佳分配方案;ε-greedy策略指,以概率1-ε从动作空间中随机选择一个小区分簇方案做为t时刻的最优小区分簇方案输出;或者以概率ε选择那个拥有最大Q值的方案,即选择: 其中0<ε<1,A1表示所有可能的小区分簇方案组成的集合;之后,DQN网络输出t时刻的小区分簇方案步骤3,功率分配:获得小区分簇方案状态后,通过MADDPG网络得到的用户选择最优的功率分配方案并进行相应的线性变换;所述步骤3的具体步骤为:采用MADDPG为所有用户进行功率分配;获得小区分簇后,将每个簇视作一个智能体,采用MADDPG的方法为所有用户选择最优的功率分配方案;MADDPG包括一个策略网络Actor和一个价值网络Critic;策略网络的输入状态为本簇内用户的信道增益信息;此外,其他簇内小区的用户功率仅仅在训练期间作为价值网络额外的信息输入;策略网络和价值网络的参数分别为θ和μ;通过策略网络获取t时刻的用户功率分配然后,在的基础上对功率进行相应变换;首先根据用户归一化信道增益确定用户的解码顺序;在确定了解码顺序后,为这些用户设置功率范围约束;假设用户m在NOMA集群n中的解码顺序是mn,定义用户m的传输功率范围Pm为: 其中,ρ∈0,0.5,Pmax是基站的最大传输功率;在获得功率范围后,需要对MADDPG网络的输出功率进行如下变换: 其中是MADDPG网络的输出功率;步骤4,奖励获取:根据深度强化学习方法,获取最终分配方案然后计算系统的整体频谱效率作为奖励反馈给神经网络;所述步骤4的具体步骤为:根据获得的联合动作即小区分簇方案和用户功率方案,计算用户的频谱效率;根据下行CoMP-NOMA传输原则,中心用户的信号与干扰加噪声比表示如下: 其中: U={C1∪C2,...∪Cm}m≠z 和分别表示第k个基站服务的边缘用户和中心用户的数量;和分别表示基站k为边缘用户和中心用户分配的发射功率;是小区k中的中心用户mnc的解码顺序;中心用户mnc的数据速率为: 边缘用户的信号与干扰加噪声比表示如下: 其中是小区j中边缘用户mc的解码顺序;和分别是为边缘用户提供服务和不提供服务的基站集合;边缘用户mc的数据速率为: t时刻的奖励定义为当前时刻所有用户的频谱效率之和,若存在用户不满足最小速率要求或者不满足NOMA解码要求则会进行相应的处罚,即: 其中,β∈[1,2]为边缘用户频谱效率和的权重,L为不符合最小速率要求或SIC解码成功的必要条件的用户总数,为惩罚值,M为用户的总数;步骤5,参数更新:根据得到的反馈奖励,基于经验重放训练用户服务基站分配网络和功率分配网络内的DQN和MADDPG神经网络,更新网络的参数,从而优化功率分配方案的选择。

全文数据:

权利要求:

百度查询: 南京邮电大学 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。