买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于深度强化学习的分布式动态频谱分配方法和设备_内蒙古大学_202410066885.9 

申请/专利权人:内蒙古大学

申请日:2024-01-17

公开(公告)日:2024-04-16

公开(公告)号:CN117896027A

主分类号:H04B17/382

分类号:H04B17/382;G06N3/0464;G06N3/047;G06N3/092;H04W84/18;H04W24/06

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.03#实质审查的生效;2024.04.16#公开

摘要:本发明属于通信领域,具体涉及一种基于深度强化学习的分布式动态频谱分配方法及其设备。该方法构建出了具有多用户多信道的CWSN环境,将多用户多信道的用户接入问题建模为一个马尔可夫决策过程,并提出一种用于预测主用户占用状态的深度Q网络模型。本发明将残差网络结构加入到了DQN中,以解决深度神经网络中由于网络深度导致的性能下降问题。针对构建的DQN模型,每个SU依据感知结果将信道观测值输入到DQN进行训练,以学习最优的频谱接入策略。最后,依据DQN模型输出信道占用状态的预测结果,对每个SU的接入请求进行响应。本发明解决了采用集中式的DSA方法难以实现对多用户的动态频谱接入问题进行管理的问题。

主权项:1.一种基于深度强化学习的分布式动态频谱分配方法,其特征在于,其用于对认知无线传感器网络中次级用户SU对主用户PU的接入请求进行管理,所述分布式动态频谱分配方法包括如下步骤:S1:通过双状态马尔可夫链表征认知无线传感器网络中次级用户与主用户间信道占用状态,构建一个用于生成双状态马尔可夫链的环境模型;S2:将多用户多信道的频谱接入问题建模为一个部分可观测的马尔可夫决策过程,确定决策过程的状态空间、动作空间、奖励函数以及策略函数;S3:结合所述环境模型以及深度学习算法,搭建一个基于深度强化学习框架的动态频谱分配模型;所述动态频谱分配模型包括目标网络、估计网络、环境模型、经验池;所述环境模型用于向经验池补充用于训练所述目标网络和估计网络的经验;所述目标网络和估计网络的参数根据计算出的损失函数按照梯度下降的策略通过反向传播进行更新;S4:对所述动态频谱分配模型进行训练,训练后的所述动态频谱分配模型用于预测通信网络中次级用户接入主用户时信道的占用状态;训练过程中,先以ε-greedy策略选择动作,再通过目标网络、估计网络和环境模型生成若干组包含信道观测值、动作和奖励的经验值向量,并将其存储到经验池中;然后,抽取经验池中经验,将信道观测值分别输入到估计网络和目标网络中,得到动作价值;并通过损失函数计算最小化均方误差来更新网络模型的参数;S5:利用训练完成后的动态频谱分配模型预测次级用户接入主用户时信道的占用状态,并根据占用状态响应次级用户的接入请求。

全文数据:

权利要求:

百度查询: 内蒙古大学 基于深度强化学习的分布式动态频谱分配方法和设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。