买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种深度确定性策略梯度的下行NOMA功率分配方法_辽宁工程技术大学_202011344394.4 

申请/专利权人:辽宁工程技术大学

申请日:2020-11-26

公开(公告)日:2024-03-26

公开(公告)号:CN112492691B

主分类号:H04W72/044

分类号:H04W72/044;H04W72/50;G06N3/045;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.03.26#授权;2021.04.23#实质审查的生效;2021.03.12#公开

摘要:本发明公开了一种深度确定性策略梯度算法的下行NOMA系统中功率分配方法,方法采用双神经网络结构及经验池回放机制,可以有效处理涉及大规模状态‑动作空间的问题,且降低训练样本之间的相关性,同时,采取确定性策略来选择动作,可以在连续的动作空间中选择动作。算法使用状态信息作为神经网络的输入,并对状态空间、动作空间及奖赏函数根据仿真下行NOMA系统情境进行了相应的设计,其中将上一时刻的信干噪比信息及速率信息作为当前时刻状态信息的组成部分,可以使得智能体更加有效的学习并利用所学习到信息来改进行为策略,经过多次迭代后,得到最优的功率分配策略。该方法可以有效解决下行NOMA系统中多用户的功率分配问题,且在不同的用户数量及基站的发射功率级别下均具备良好的泛化性能,可以有效提升功率分配的合理性,同时运算耗时少,有效提高功率分配的效率。

主权项:1.一种深度确定性策略梯度的下行NOMA功率分配方法,其特征在于使用深度确定性策略梯度算法实现下行NOMA系统的功率分配,其包括如下:初始化NOMA系统网络环境设置;初始化经验池;初始化当前演员网络,初始化当前目标演员网络,初始化当前评论家网络,初始化当前目标评论家网络;初始化深度确定性策略梯度的下行NOMA功率分配方法训练相关参数;接收初始状态;智能体根据当前状态,通过当前演员神经网络选择动作,执行所选择的动作,改变子信道中的功率分配比例值,得到当前时隙的奖赏值,智能体到达下一个状态,存储经验到经验池,进行神经网络训练,将下一个状态作为当前的状态;初始化NOMA系统网络环境设置,设置小区中的用户数量,用户之间的最小距离,用户与基站的最小距离的参数,包含基站及多个终端用户,其中单个子信道上包含两个用户,初始化状态作为神经网络的输入;初始化经验池,使用双端队列,在经验池中存储的样本数量达到经验池容量后,自动删除队列前端的元素,新生成的经验样本添加到队列的后端;初始化当前演员网络权重θu,当前演员网络使用us,a|θu表示;目标演员网络权重目标演员网络使用表示;初始化当前评论家网络权重θQ,当前评论家网络使用Qs,a|θQ表示;目标评论家网络权重目标评论家网络使用表示;其中s表示状态,a表示所选择的动作,四个神经网络均使用全连接神经网络构建;初始化深度确定性策略梯度的下行NOMA功率分配方法的训练相关参数,包括设置初始学习率、总的迭代次数、折扣因子;接收初始状态;对状态空间进行设计,其状态信息包含四个部分,第一个部分是上一时隙智能体所达到的和速率,第二部分是上一时隙智能体对应两个用户各自的SINR信息,第三部分是上一时隙智能体对应两个用户各自所达到的传输速率,第四部分是当前时隙智能体所采取的功率分配比例因子,状态空间信息表示为: 其中,表示上一时隙智能体所达到的和速率,表示上一时隙智能体上两个用户各自的SINR信息,表示上一时隙智能体上两个用户各自所达到的传输速率,表示当前时隙智能体所采取的功率分配比例因子; 的计算公式为,设定用户1的信道条件好于用户2: SINR1,n和SINR2,n分别表示用户1与用户2的SINR;用户i的SINR的计算公式为: 其中,pi,n表示用户i所分配到的功率,hi,n表示用户i的信道增益,表示信道的噪声;hi,n的计算公式为:hi,n=gi,n·PL-1d其中,gi,n为小尺度衰落,PL-1d表示基站与用户i之间的路径损耗函数;智能体根据当前状态,通过当前演员神经网络选择动作,动作为子信道上两个用户之间的功率分配比例因子,表示为一个连续值集合,取值范围从0到1,但不包含0和1,其集合表示为:A=0,...,βn,...,1其中,βn表示子信道上两个用户之间的功率分配比例因子,系统中总的功率均分给每个子信道,通过功率分配因子,将子信道的功率分配给两个用户;当前评论家网络的损失函数为: 其中表示当前评论家网络的目标Q值,Qst,at|θQ表示当前评论家网络的输出值,θQ表示其参数,N表示一次训练的批次样本数据大小,通过最小化损失函数来更新参数;当前演员网络的损失函数为: 其中Qst,at|θQ表示当前评论家神经网络的输出值,θQ表示其参数,通过最小化损失函数来更新参数;对奖赏函数进行设计,使用总和传输速是对智能体所采取的动作进行反馈,将当前时隙的总和传输速率作为奖赏函数,并为所有的智能体所共享,计算公式为:

全文数据:

权利要求:

百度查询: 辽宁工程技术大学 一种深度确定性策略梯度的下行NOMA功率分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。