买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种无线网络中基于多智能体强化学习的信道抢占方法_山东大学_202210018612.8 

申请/专利权人:山东大学

申请日:2022-01-08

公开(公告)日:2024-03-12

公开(公告)号:CN114375022B

主分类号:H04W40/24

分类号:H04W40/24;H04W40/32;H04L41/14;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.12#授权;2022.05.06#实质审查的生效;2022.04.19#公开

摘要:本发明公开了一种无线网络中基于多智能体强化学习的信道抢占方法,包括如下步骤:S1.构建无线网络信道抢占场景,用于与智能体交互;构建信道抢占所需多智能体强化学习模型;S2.对模型进行训练使模型参数最优化;S3.各智能体加载训练好的模型参数,根据模型做出决策,实现信道抢占。其优点在于,采用了多智能体强化学习的方法去解决信道抢占问题,参与信道抢占的各候补节点,彼此之间不需要进行通信,只需要与无线网络环境进行交互,可扩展性强;可以进行分布式训练,减少训练时间;训练出的模型可以很好地保证信道抢占过程的成功。

主权项:1.一种无线网络中基于多智能体强化学习的信道抢占方法,其特征在于,包括如下步骤:S1.构建无线网络信道抢占场景,用于与智能体交互;在无线网络环境中,存在K个领导人候补节点和一个无线信道,时间被分为多个时间片,各候补节点间彼此无法通信,且信道在某一时间片内只能被单个节点占用;在每个时间片内,各候补节点会对自身的选举概率进行调整,根据调整后的选举概率选择是否参与选举,参与选举的节点会去抢占信道,依据每个时间片内信道的状态,环境会给予各节点反馈,当参与选举的节点数量为1时,即信道被成功占用时,则为选举成功;当没有参与选举的节点或参与选举的节点数量不等于1时,即信道未被成功占用时,此时选举失败;构建信道抢占所需多智能体强化学习模型;在各个智能体处都构建DDPG强化学习模型,每个智能体都被看作是参与信道抢占的候补节点;每个智能体的DDPG模型包括四个全连接网络,分别是当前策略网络、目标策略网络、当前评论网络以及目标评论网络;所述当前策略网络,输入为t时间片的状态,输出为t时间片的动作,及对t时间片的选举概率的增长百分比;所述目标策略网络,输入为t+1时间片的状态,输出为t+1时间片的动作,及对t+1时间片的选举概率的增长百分比;所述当前评论网络,输入为t时间片的状态和当前策略网络的输出,输出为对t时间片此状态下采取此动作的价值的评估值;所述目标评论网络,输入为t+1时间片的状态和当前策略网络的输出,输出为对t+1时间片此状态下采取此动作的价值的评估值;S2.对模型进行训练使模型参数最优化;各智能体学习模型中各网络训练过程如下:步骤2.1随机初始化当前策略网络参数θ和当前评论网络参数ω;步骤2.2根据训练轮次进行M次迭代,各智能体对自己的四个全连接网络进行训练,步骤如下:2.2.1初始化各智能体的选举概率,获取到初始状态张量S;对于构成t时间片的状态张量S的各个组成部分:t-1时间片的选举结果,此结果会以三维向量的形式表示,当t-1时间片没有智能体参与选举时,认为选举失败,表示为[1,0,0];当t-1时间片仅有一个智能体参与选举时,此时表现为选举成功,表示为[0,1,0];当t-1时间片有多个智能体参与选举时,选举失败,表示为[0,0,1];2.2.2将初始状态张量S输入当前策略网络,基于初始状态张量S获得动作A;2.2.3执行动作A,与环境交互得到新的状态S’以及奖励R;根据每个时间片的选举结果,环境会给出对应的奖励R,当某个时间片选举结果为[0,1,0]时,即只有一个智能体参与选举时,所有智能体会获得一个正的相同的奖励值作为它们合作成功的奖励,对于其它情况,都是给予负的奖励值;2.2.4各智能体将各自的{S,A,R,S’}存入经验回放集合D,当集合内记录数量大于集合设定容量时会删除较早插入的记录;2.2.5从经验回放集合中拿出m条记录用于网络参数优化,将S’输入目标策略网络获取A’,将S’及A’输入目标评论网络得到Q’S’,A’,再将S及A输入当前评论网络获得QS,A,使用m个记录计算出的Q’S’,A’+R-QS,A的均方误差作为损失函数,对当前评论网络进行参数优化;2.2.6使用Q值来优化当前策略函数的参数;2.2.7当前迭代总次数ttotal为C的倍数时,会对目标网络进行软更新,更新方法如下:θ’=τθ+1-τθ’ω’=τω+1-τω’2.2.8令S=S’,开始下一次迭代直到本轮迭代完成;S3.各智能体加载训练好的模型参数,根据模型做出决策,实现信道抢占。

全文数据:

权利要求:

百度查询: 山东大学 一种无线网络中基于多智能体强化学习的信道抢占方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。