买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】无线接入网中多用户智能发射功率控制方法_嘉兴学院_202111145720.3 

申请/专利权人:嘉兴学院

申请日:2021-09-28

公开(公告)日:2023-05-26

公开(公告)号:CN114051252B

主分类号:H04W24/02

分类号:H04W24/02;H04W24/06;H04W52/14

优先权:

专利状态码:有效-授权

法律状态:2023.05.26#授权;2022.03.04#实质审查的生效;2022.02.15#公开

摘要:本发明涉及一种无线接入网中多用户智能发射功率控制方法,包括:对入网的各无线接入设备的通信系统进行建模分析,得到无线接入设备的全局信道状态和全局序列状态;基于多个体的马尔可夫决策过程,确定各无线接入设备的功率控制策略;根据在功率控制策略下的无线接入设备的平均上行发射功耗和平均上行通信时延,确定功率控制策略的优化目标模型;运用多智能体深度强化学习方法训练所述功率控制策略,得到训练好的策略网络;各无线接入设备根据训练好的策略网络进行智能发射功率控制。本发明降低整个上行通信系统的时延和功耗,利用有限资源提供高质量通信服务,并且由于其复杂度低、分布式决策,具有良好的可实现性和可扩展性。

主权项:1.一种无线接入网中多用户智能发射功率控制方法,其特征在于,包括以下步骤:对入网的各无线接入设备的通信系统进行建模分析,得到所述无线接入设备的全局信道状态和全局序列状态;基于多个体的马尔可夫决策过程,确定各无线接入设备的功率控制策略;根据在功率控制策略下的无线接入设备的平均上行发射功耗和平均上行通信时延,确定功率控制策略的优化目标模型;运用多智能体深度强化学习方法训练所述功率控制策略,得到训练好的策略网络;各无线接入设备根据训练好的策略网络进行智能发射功率控制;入网的各所述无线接入设备以OFDMA的接入方式与单个基站进行上行通信,所述OFDMA的可分配子载波数小于所述无线接入设备数量;所述OFDMA为载波的非正交复用,在同一子载波上搭载不止一个无线接入设备的信息;对入网的各无线接入设备的通信系统进行建模分析,得到所述无线接入设备的全局信道状态和全局序列状态包括:1计算无线接入设备的传输速率;所述非正交复用中,基站接收无线接入设备k于子载波m上的可实现数据速率为:其中,Hk,mt为在t时刻无线接入设备k于子载波m信道状态信息;Pk,mt为在t时刻无线接入设备k于子载波m发射功率信息;Hj,mt为在t时刻无线接入设备j于子载波m信道状态信息;Pj,mt为在t时刻无线接入设备j于子载波m发射功率信息;Γ为由于信号调制复用方式带来的SINR差距;N0为噪声功率;2对通信无线接入设备的队列动态进行建模分析;确定出的无线接入设备k于子载波m上的队列动态: Ikt为无线接入设备k在时刻t的待传输序列长度;Ck,mt为基站接收无线接入设备k于子载波m上的可实现数据速率,M为子载波的数量;基于马尔可夫决策过程,无线接入设备k根据对应的功率控制策略πk选择动作ak;并根据无线接入设备的当前状态St以及所有无线接入设备的动作进入下一个状态St+1;并且,在状态转换时,每个无线接入设备得到一个对应的奖赏函数rkt=rSt,akt,St+1,并得到自身对新状态的观测量okt+1;在功率控制策略中,每个无线接入设备追求最大化自身的长期回报为其中γ为折扣因子,T为时间长度;所述功率控制策略的优化目标模型,依据低功耗、低时延目标,建立无线接入网中多无线接入设备发射功率控制问题为: αk和βk分别是无线接入设备功耗和时延对应的正值权重;为控制策略πk下,无线接入设备k的平均上行发射功耗、平均上行通信时延;Pmax为无线接入设备最大发射功率;Pk,mt为在t时刻无线接入设备k于子载波m发射功率信息;M为子载波的数量;在优化目标模型中每个无线接入设备的奖赏为: K为无线接入设备数量;Lkt为无线接入设备k于子载波m上的队列动态;λk为无线接入设备k的数据包平均到达速率;所述运用多智能体深度强化学习方法训练所述功率控制策略的过程,包括:步骤S301、在迭代的每个回合,在时间长度T内运行各无线接入设备的功率控制策略;无线接入网的中心节点收集各无线接入设备动作、状态和奖赏;步骤S302、计算所有无线接入设备的估计优势值;步骤S303、遍历所有无线接入设备,每一个无线接入设备从所述中心节点获取自身的奖赏与观测值中的信道状态信息,从自身获取队列状态信息,进行组合得到所述无线接入设备最终的观测值;步骤S304、根据所述最终的观测值,每个无线接入设备在本地使用梯度下降法更新对应的策略参数;步骤S305、中心节点使用梯度下降法更新每一个无线接入设备对应的优势函数网络参数;步骤S306、回合数加1,重新从步骤S301开始迭代执行训练过程;在迭代到最大回合次数后,算法达到收敛,将训练好的策略网络输出;在步骤S302中,计算无线接入设备的估计优势值的优势函数为: 其中,时间参数n=0,1,2,…,N-1;N-1为与时间长度T对应的时间点数;γ,λ∈[0,1]为权衡估计偏差和方差的折扣因子;VkSt;φk为无线接入设备k在t时刻无线接入设备的状态St和神经网络参数φk下的集中式价值函数;rkt为无线接入设备k的奖赏;在步骤S305中,中心节点使用梯度下降法更新每一个无线接入设备对应的优势函数网络参数的最小化损失函数为; 在步骤S306中,每个无线接入设备在本地使用梯度下降法更新对应的策略参数的目标函数为: 其中lkt;θk表示调整控制策略πk参数θk后新旧策略之间的似然比;cliplkt;θk,1-ε,1+ε表示将lkt;θk限幅在[1-ε,1+ε]区间;ε为误差;为优势函数的估计。

全文数据:

权利要求:

百度查询: 嘉兴学院 无线接入网中多用户智能发射功率控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。