买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度强化学习的绿色认知无线电的功率分配方法_福州大学_202111425954.3 

申请/专利权人:福州大学

申请日:2021-11-26

公开(公告)日:2024-04-09

公开(公告)号:CN114126021B

主分类号:H04W52/06

分类号:H04W52/06;H04W52/38;G06N3/084;G06N3/092

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2022.03.18#实质审查的生效;2022.03.01#公开

摘要:本发明涉及一种基于深度强化学习的绿色认知无线电的功率分配方法,首先建立功率分配模型,并按如下步骤对其进行训练:S1、初始化回合训练次数、记忆池的容量以及深度神经网络随机参数;S2、在每个回合开始时,初始化状态;S3、在每个回合的第t步,根据贪婪策略选择动作;S4、将动作输入到认知无线环境中,环境返回回报,更新电池可用能量,更新状态,并把状态转移存储到记忆池;S5、从记忆池中随机采样设定批量的状态转移,执行梯度下降步骤;然后通过训练好的功率分配模型进行功率分配。该方法有利于根据环境的变化做出最优的功率控制和分配。

主权项:1.一种基于深度强化学习的绿色认知无线电的功率分配方法,其特征在于,首先建立功率分配模型,并按如下步骤对其进行训练:S1、初始化回合训练次数N,记忆池D的容量以及深度神经网络随机参数θ0;S2、在每个回合开始时,初始化状态s0;S3、在每个回合的第t步,根据贪婪策略选择动作at;S4、将动作at输入到认知无线环境中,环境返回回报rt,更新电池可用能量Bt,更新状态并把状态转移st,at,rt,st+1存储到记忆池D;S5、从记忆池D中随机采样设定批量的sj,aj,rj,sj+1,计算以yj-Qsj,aj;θ2执行梯度下降步骤;其中,ωt表示第t个时隙的信道占用情况,Et表示第t个时隙电池收集到的能量,Bt表示第t个时隙电池的可用能量,表示第t个时隙次用户发射机ST到次用户接收机SR的信道功率增益,表示第t个时隙次用户发射机ST到主用户接收机PR的信道功率增益,表示第t个时隙主用户发射机PT到次用户接收机SR的信道功率增益,γ为折扣因子,ε为概率阈值,A为可选动作集合,Qsj+1,a';θ'表示参数为θ'的神经网络输出的下一个状态sj+1和动作a'对应的状态-动作函数值;然后通过训练好的功率分配模型进行功率分配;所述步骤S2中,在每个回合开始时,初始化状态其中ω0表示当前时隙的信道占用情况,E0表示初始时刻收集到的能量,B0表示初始时刻的可用能量,和表示各链路的信道功率增益;所述步骤S3中,在每个回合的第t步,根据贪婪策略选择动作at的具体方法为:随机生成概率p,若p≤ε,则随机选择动作at,否则根据公式选择at;所述步骤S4中,按如下方法更新状态、能量以及获取回报:将动作at输入到认知无线环境中,环境返回回报rt,然后根据以下公式更新电池可用能量: 其中,Bmax为电池的最大容量,It=1时表示第t个时隙进行能量采集,It=0时表示第t个时隙传输数据;然后更新状态并把状态转移st,at,rt,st+1存储到记忆池D;相关参数的定义如下: 所述步骤S5中,按如下方法更新神经网络参数:从记忆池D中随机采样设定批量的样本sj,aj,rj,sj+1,计算进而计算损失函数Lθ=E[yj-Qsj,aj;θ2],再采用随机梯度下降法SGD更新参数来缩小Lθ,更新规则为其中α表示学习率,α∈0,1,从而完成神经网络参数更新。

全文数据:

权利要求:

百度查询: 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。