买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度强化学习的边缘物联网代理资源分配方法_国网重庆市电力公司电力科学研究院;国网重庆市电力公司;国家电网有限公司_202211401605.2 

申请/专利权人:国网重庆市电力公司电力科学研究院;国网重庆市电力公司;国家电网有限公司

申请日:2022-11-10

公开(公告)日:2024-03-19

公开(公告)号:CN115914227B

主分类号:H04L67/10

分类号:H04L67/10;H04L67/12;H04L67/56;G06N3/04;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.03.19#授权;2023.04.21#实质审查的生效;2023.04.04#公开

摘要:本发明公开了一种基于深度强化学习的边缘物联网代理资源分配方法,涉及物联网技术领域,该方法包括:首先由终端设备x收集环境中的数据,并将所述数据传输至深度强化学习网络模型,然后根据所述数据,由深度强化学习网络模型得到最优分配策略,最后根据所述最优分配策略,将所述数据发送至边缘节点e进行计算,实现边缘物联网代理资源分配;本发明,解决了边缘物联网代理资源分配时间长、性能有限以及现有技术不足以支持复杂动力物联网的资源优化配置的问题。

主权项:1.一种基于深度强化学习的边缘物联网代理资源分配方法,其特征在于,包括:步骤S1:由终端设备x收集环境中的数据,并将所述数据传输至深度强化学习网络模型;步骤S2:根据所述数据,由深度强化学习网络模型得到最优分配策略;步骤S3:根据所述最优分配策略,将所述数据发送至边缘节点e进行计算,实现边缘物联网代理资源分配;所述步骤S1中深度强化学习网络模型的训练方法包括如下步骤:步骤S101:初始化所述深度强化学习网络模型的系统状态s;步骤S102:初始化所述深度强化学习网络模型的实时ANN和延迟ANN;步骤S103:初始化所述深度强化学习网络模型的经验池O;步骤S104:根据当前系统状态st,利用ε-greedy策略,选择系统动作at;步骤S105:由环境根据所述系统动作at反馈奖励σt+1和系统下一状态st+1;步骤S106:根据所述当前系统状态st、系统动作at、奖励σt+1和系统下一状态st+1,计算得到状态转换序列Δt,并将状态转换序列Δt存储至经验池O;步骤S107:判断经验池O存储量是否达到预设值,若是,从经验池O中抽取N个状态转换序列对实时ANN和延迟ANN进行训练,完成对深度强化学习网络模型的训练;否则,将当前系统状态st更新为系统下一状态st+1,并返回步骤S104;所述步骤S107中对实时ANN和延迟ANN的训练方法包括如下步骤:步骤S1071:对所述N个状态转换序列,根据状态转换序列得到状态动作对的估计值Qst,at,θ和下一状态的值Qst+1,at+1,θ';步骤S1072:根据所述下一状态的值Qst+1,at+1,θ'和奖励σt+1,计算得到状态动作对的目标值y;步骤S1073:根据所述状态动作对的估计值Qst,at,θ和目标值y,计算得到损失函数Lossθ;步骤S1074:通过损失的反向传播机制调整实时ANN的参数θ,并利用优化器RMSprop减小损失函数Lossθ;步骤S1075:判断距离上一次更新延迟ANN的参数θ'的步数是否等于设定值,若是,更新延迟ANN的参数θ',进入步骤S1077;否则,进入步骤S1076;步骤S1076:判断N个状态转换序列是否训练结束,若是,从经验池O中重新抽取N个状态转换序列,并返回步骤S1071,否则返回步骤S1071;步骤S1077:对所述深度强化学习网络模型性能指标进行测试,得到测试结果;步骤S1078:判断所述测试结果是否达到要求,若是,则实时ANN和延迟ANN训练结束,得到训练完成的深度强化学习网络模型;否则,从经验池O中重新抽取N个状态转换序列,并返回步骤S1071;所述步骤S1077中的深度强化学习网络模型性能指标包括:全局成本和可靠度;所述全局成本包括延迟成本c1、迁移成本c2和负载成本c3;所述延迟成本c1的表达式如下: 其中:t为交互次数;X为终端设备集合;E为边缘节点集合;ux为发送的数据量; 为当前交互时间里终端设备x与边缘节点e的部署变量;τxe为终端设备x与边缘节点e的传输延迟;所述迁移成本c2的表达式如下: 其中:j为迁移边缘节点; 为上一交互时间里终端设备x与边缘节点e的部署变量; 为当前交互时间里终端设备x与迁移边缘节点j的部署变量;所述负载成本c3的表达式如下: 其中:ux为发送的数据量;所述可靠度的计算包括以下步骤:步骤A1:将终端设备x和边缘节点e的交互数据存储于滑动窗口中,并进行实时更新;步骤A2:根据终端设备x和边缘节点e的历史交互数据,采用基于贝叶斯信任评价的期望值计算当前交互的时间衰减程度和资源分配率;步骤A3:根据所述时间衰减程度和资源分配率,计算得到可靠度Text;所述可靠度Text的计算公式如下: Next=1-Pext其中:U为滑动窗口中有效信息的数量;w为当前交互信息; 为时间衰减程度;Hextw为资源分配率;ε为的波动系数;Pextw当前交互的正服务满意度;Nextw为当前交互的负服务满意度;sext为终端设备x和边缘节点e之间成功的历史交互次数;fext为终端设备x和边缘节点e之间失败的历史交互次数;所述步骤A2中时间衰减程度的表达式如下: 其中:Δtw为第w次交互结束到当前交互开始的时间间隙;所述步骤A2中资源分配率的计算公式如下: 其中:sourceext为边缘节点e在当前时隙中能提供给终端设备x的资源量;sourceet为边缘节点e在当前时隙中所能提供的资源总量。

全文数据:

权利要求:

百度查询: 国网重庆市电力公司电力科学研究院;国网重庆市电力公司;国家电网有限公司 一种基于深度强化学习的边缘物联网代理资源分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。