【发明授权】一种无线网络中基于多智能体强化学习的信道抢占方法_山东大学_202210018612.8

导航：龙图腾网> 最新专利技术> 一种无线网络中基于多智能体强化学习的信道抢占方法_山东大学_202210018612.8

申请/专利权人：山东大学

申请日：2022-01-08

公开（公告）日：2024-03-12

公开（公告）号：CN114375022B

主分类号：H04W40/24

分类号：H04W40/24;H04W40/32;H04L41/14;G06N20/00

优先权：

专利状态码：有效-授权

法律状态：2024.03.12#授权;2022.05.06#实质审查的生效;2022.04.19#公开

摘要：本发明公开了一种无线网络中基于多智能体强化学习的信道抢占方法，包括如下步骤：S1.构建无线网络信道抢占场景，用于与智能体交互；构建信道抢占所需多智能体强化学习模型；S2.对模型进行训练使模型参数最优化；S3.各智能体加载训练好的模型参数，根据模型做出决策，实现信道抢占。其优点在于，采用了多智能体强化学习的方法去解决信道抢占问题，参与信道抢占的各候补节点，彼此之间不需要进行通信，只需要与无线网络环境进行交互，可扩展性强；可以进行分布式训练，减少训练时间；训练出的模型可以很好地保证信道抢占过程的成功。

主权项：1.一种无线网络中基于多智能体强化学习的信道抢占方法，其特征在于，包括如下步骤：S1.构建无线网络信道抢占场景，用于与智能体交互；在无线网络环境中，存在K个领导人候补节点和一个无线信道，时间被分为多个时间片，各候补节点间彼此无法通信，且信道在某一时间片内只能被单个节点占用；在每个时间片内，各候补节点会对自身的选举概率进行调整，根据调整后的选举概率选择是否参与选举，参与选举的节点会去抢占信道，依据每个时间片内信道的状态，环境会给予各节点反馈，当参与选举的节点数量为1时，即信道被成功占用时，则为选举成功；当没有参与选举的节点或参与选举的节点数量不等于1时，即信道未被成功占用时，此时选举失败；构建信道抢占所需多智能体强化学习模型；在各个智能体处都构建DDPG强化学习模型，每个智能体都被看作是参与信道抢占的候补节点；每个智能体的DDPG模型包括四个全连接网络，分别是当前策略网络、目标策略网络、当前评论网络以及目标评论网络；所述当前策略网络，输入为t时间片的状态，输出为t时间片的动作，及对t时间片的选举概率的增长百分比；所述目标策略网络，输入为t+1时间片的状态，输出为t+1时间片的动作，及对t+1时间片的选举概率的增长百分比；所述当前评论网络，输入为t时间片的状态和当前策略网络的输出，输出为对t时间片此状态下采取此动作的价值的评估值；所述目标评论网络，输入为t+1时间片的状态和当前策略网络的输出，输出为对t+1时间片此状态下采取此动作的价值的评估值；S2.对模型进行训练使模型参数最优化；各智能体学习模型中各网络训练过程如下：步骤2.1随机初始化当前策略网络参数θ和当前评论网络参数ω；步骤2.2根据训练轮次进行M次迭代，各智能体对自己的四个全连接网络进行训练，步骤如下：2.2.1初始化各智能体的选举概率，获取到初始状态张量S；对于构成t时间片的状态张量S的各个组成部分：t-1时间片的选举结果，此结果会以三维向量的形式表示，当t-1时间片没有智能体参与选举时，认为选举失败，表示为[1,0,0]；当t-1时间片仅有一个智能体参与选举时，此时表现为选举成功，表示为[0,1,0]；当t-1时间片有多个智能体参与选举时，选举失败，表示为[0,0,1]；2.2.2将初始状态张量S输入当前策略网络，基于初始状态张量S获得动作A；2.2.3执行动作A，与环境交互得到新的状态S’以及奖励R；根据每个时间片的选举结果，环境会给出对应的奖励R，当某个时间片选举结果为[0,1,0]时，即只有一个智能体参与选举时，所有智能体会获得一个正的相同的奖励值作为它们合作成功的奖励，对于其它情况，都是给予负的奖励值；2.2.4各智能体将各自的{S,A,R,S’}存入经验回放集合D，当集合内记录数量大于集合设定容量时会删除较早插入的记录；2.2.5从经验回放集合中拿出m条记录用于网络参数优化，将S’输入目标策略网络获取A’，将S’及A’输入目标评论网络得到Q’S’,A’，再将S及A输入当前评论网络获得QS,A，使用m个记录计算出的Q’S’,A’+R-QS,A的均方误差作为损失函数，对当前评论网络进行参数优化；2.2.6使用Q值来优化当前策略函数的参数；2.2.7当前迭代总次数ttotal为C的倍数时，会对目标网络进行软更新，更新方法如下：θ’＝τθ+1-τθ’ω’＝τω+1-τω’2.2.8令S＝S’，开始下一次迭代直到本轮迭代完成；S3.各智能体加载训练好的模型参数，根据模型做出决策，实现信道抢占。

全文数据：

权利要求：

百度查询：山东大学一种无线网络中基于多智能体强化学习的信道抢占方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

下一篇：用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

相关技术

一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

一种钻井液生产粉尘收集装置_新乡市隆驰化学有限责任公司_202322388957.5

CNC加工用快速换线治具_东莞华清光学科技有限公司_202322418777.7

一种现调机用消毒装置_中粮可口可乐饮料(山西)有限公司_202322565837.8

整形压块及焊接装置_宁德时代新能源科技股份有限公司_202321970130.9

一种用于土地规划用测量装置_西安市城市发展资源信息有限公司_202322290527.X

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

一种双卧轴连续式混凝土搅拌装置_广安金都混凝土有限公司_202322291527.1

一种注塑机新型泵罩门板_恩格尔注塑机械(常州)有限公司_202322227242.1

一种打印机线路板加工用吸附输送轨道_威海光大光电有限公司_202322481598.8

强化相关技术

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

一种强化预筛分的破碎干选装置_连云港恒鑫通矿业有限公司_202322499662.5

基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质_湖南大学_202111280872.4

一种基于OAR模型与强化学习的辅助决策方法和装置_清华大学_202311824731.3

基于混合强化学习的车载任务卸载调度方法及系统_北京理工大学_202410205872.5

一种基于深度强化学习的信息年龄可感知资源分配方法_南京理工大学_202210228341.9

化学强化光学玻璃_株式会社小原_202280058134.1

再生混凝土骨料的强化装置_宜昌鑫大兴混凝土有限公司_202322362180.5

一种强化汽车连杆_盐城丰工机械有限公司_202322213045.4

使用强化学习的无线信号波束管理_辉达公司_202311320475.4

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

用于工业机器人减速机故障学习方法_重庆工业职业技术学院_202310128261.0

一种分布式学习索引模型的构建方法及应用_华中科技大学_202111095824.8

基于深度学习的LED光源识别方法、装置、设备及介质_湖北经济学院_202410088953.1

体相关技术

面纸收纳体_大王制纸株式会社_202311290485.8

药液、药液收容体_富士胶片株式会社_201980046121.0

开闭体驱动装置_株式会社爱信_202311364489.6

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

助威工具结构体_朴泳_202310387247.2

层叠体、层叠体的制造方法、层叠用膜、图像显示装置_大日本印刷株式会社_202080089572.5

一种盒体及双层盒体底部连接纸的粘贴方法_中科天工(武汉)智能技术有限公司_202210267720.9

屏体翻折治具和屏体翻折方法_合肥维信诺科技有限公司_202111370062.8

一种钳体一体成型铸造设备_安徽盛隆铸业有限公司_202322374008.1

假体组件及电子设备_联想(北京)有限公司_202322309201.7

龙图腾网&IPTOP

【发明授权】一种无线网络中基于多智能体强化学习的信道抢占方法_山东大学_202210018612.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务