买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于深度对比强化学习的无线路由优化方法及网络系统_重庆可兰达科技有限公司_202311811899.0 

申请/专利权人:重庆可兰达科技有限公司

申请日:2023-12-26

公开(公告)日:2024-03-22

公开(公告)号:CN117749692A

主分类号:H04L45/02

分类号:H04L45/02;H04W40/04

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明公开了基于深度对比强化学习的无线路由优化方法及网络系统,该方法应用于物联网无线多跳网络和服务器中,服务器上部署有深度对比强化学习模型,网络包括一个汇聚节点和多个无线终端节点,每个终端节点上部署有Actor网络作为分布式的路由决策模型;包括:基于超帧周期,节点入网时从服务器上获取当前最新路由决策模型;在控制周期,该节点基于最新路由决策模型和局部状态向量,生成最优转发节点;在数据传输周期,该节点传输数据给最优转发节点;该节点将在每个超帧周期内采集的经验信息上传至服务器;服务器将经验信息存储至经验池中,及从中抽取部分经验信息并训练深度对比强化学习模型。本发明降低计算量,提高路由选择效果。

主权项:1.基于深度对比强化学习的无线路由优化方法,其特征在于,该方法应用于物联网无线多跳网络和服务器中,所述服务器上部署有深度对比强化学习模型,所述网络包括一个汇聚节点和多个无线终端节点,每个终端节点上部署有Actor网络作为分布式的路由决策模型;该方法包括:将整个时间划分为多个连续的超帧周期,每个超帧周期包括一个控制周期和一个数据传输周期;基于所述超帧周期,每个节点入网时从服务器上获取当前最新路由决策模型;在控制周期,该节点基于最新路由决策模型和局部状态向量s,生成当前最优动作a并将其映射为最优转发节点;在数据传输周期,该节点传输数据给最优转发节点;在每个数据传输周期结束后,该节点统计相关网络性能指标,计算相应的奖励值r;直至所述深度对比强化学习模型收敛前,该节点将在每个所述超帧周期内采集的经验信息s,a,r,s′上传至服务器,所述s′为智能体在状态s下执行动作a,环境的新状态;服务器周期性地从节点处收集所述经验信息并将所述经验信息存储至经验池中,及从经验池中抽取部分经验信息并训练所述深度对比强化学习模型。

全文数据:

权利要求:

百度查询: 重庆可兰达科技有限公司 基于深度对比强化学习的无线路由优化方法及网络系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。