【发明授权】一种基于深度强化学习的边缘物联网代理资源分配方法_国网重庆市电力公司电力科学研究院;国网重庆市电力公司;国家电网有限公司_202211401605.2

申请/专利权人：国网重庆市电力公司电力科学研究院;国网重庆市电力公司;国家电网有限公司

申请日：2022-11-10

公开（公告）日：2024-03-19

公开（公告）号：CN115914227B

主分类号：H04L67/10

分类号：H04L67/10;H04L67/12;H04L67/56;G06N3/04;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.03.19#授权;2023.04.21#实质审查的生效;2023.04.04#公开

摘要：本发明公开了一种基于深度强化学习的边缘物联网代理资源分配方法，涉及物联网技术领域，该方法包括：首先由终端设备x收集环境中的数据，并将所述数据传输至深度强化学习网络模型，然后根据所述数据，由深度强化学习网络模型得到最优分配策略，最后根据所述最优分配策略，将所述数据发送至边缘节点e进行计算，实现边缘物联网代理资源分配；本发明，解决了边缘物联网代理资源分配时间长、性能有限以及现有技术不足以支持复杂动力物联网的资源优化配置的问题。

主权项：1.一种基于深度强化学习的边缘物联网代理资源分配方法，其特征在于，包括：步骤S1：由终端设备x收集环境中的数据，并将所述数据传输至深度强化学习网络模型；步骤S2：根据所述数据，由深度强化学习网络模型得到最优分配策略；步骤S3：根据所述最优分配策略，将所述数据发送至边缘节点e进行计算，实现边缘物联网代理资源分配；所述步骤S1中深度强化学习网络模型的训练方法包括如下步骤：步骤S101：初始化所述深度强化学习网络模型的系统状态s；步骤S102：初始化所述深度强化学习网络模型的实时ANN和延迟ANN；步骤S103：初始化所述深度强化学习网络模型的经验池O；步骤S104：根据当前系统状态st，利用ε-greedy策略，选择系统动作at；步骤S105：由环境根据所述系统动作at反馈奖励σt+1和系统下一状态st+1；步骤S106：根据所述当前系统状态st、系统动作at、奖励σt+1和系统下一状态st+1，计算得到状态转换序列Δt，并将状态转换序列Δt存储至经验池O；步骤S107：判断经验池O存储量是否达到预设值，若是，从经验池O中抽取N个状态转换序列对实时ANN和延迟ANN进行训练，完成对深度强化学习网络模型的训练；否则，将当前系统状态st更新为系统下一状态st+1，并返回步骤S104；所述步骤S107中对实时ANN和延迟ANN的训练方法包括如下步骤：步骤S1071：对所述N个状态转换序列，根据状态转换序列得到状态动作对的估计值Qst,at,θ和下一状态的值Qst+1,at+1,θ'；步骤S1072：根据所述下一状态的值Qst+1,at+1,θ'和奖励σt+1，计算得到状态动作对的目标值y；步骤S1073：根据所述状态动作对的估计值Qst,at,θ和目标值y，计算得到损失函数Lossθ；步骤S1074：通过损失的反向传播机制调整实时ANN的参数θ，并利用优化器RMSprop减小损失函数Lossθ；步骤S1075：判断距离上一次更新延迟ANN的参数θ'的步数是否等于设定值，若是，更新延迟ANN的参数θ'，进入步骤S1077；否则，进入步骤S1076；步骤S1076：判断N个状态转换序列是否训练结束，若是，从经验池O中重新抽取N个状态转换序列，并返回步骤S1071，否则返回步骤S1071；步骤S1077：对所述深度强化学习网络模型性能指标进行测试，得到测试结果；步骤S1078：判断所述测试结果是否达到要求，若是，则实时ANN和延迟ANN训练结束，得到训练完成的深度强化学习网络模型；否则，从经验池O中重新抽取N个状态转换序列，并返回步骤S1071；所述步骤S1077中的深度强化学习网络模型性能指标包括：全局成本和可靠度；所述全局成本包括延迟成本c1、迁移成本c2和负载成本c3；所述延迟成本c1的表达式如下：其中：t为交互次数；X为终端设备集合；E为边缘节点集合；ux为发送的数据量；为当前交互时间里终端设备x与边缘节点e的部署变量；τxe为终端设备x与边缘节点e的传输延迟；所述迁移成本c2的表达式如下：其中：j为迁移边缘节点；为上一交互时间里终端设备x与边缘节点e的部署变量；为当前交互时间里终端设备x与迁移边缘节点j的部署变量；所述负载成本c3的表达式如下：其中：ux为发送的数据量；所述可靠度的计算包括以下步骤：步骤A1：将终端设备x和边缘节点e的交互数据存储于滑动窗口中，并进行实时更新；步骤A2：根据终端设备x和边缘节点e的历史交互数据，采用基于贝叶斯信任评价的期望值计算当前交互的时间衰减程度和资源分配率；步骤A3：根据所述时间衰减程度和资源分配率，计算得到可靠度Text；所述可靠度Text的计算公式如下： Next＝1-Pext其中：U为滑动窗口中有效信息的数量；w为当前交互信息；为时间衰减程度；Hextw为资源分配率；ε为的波动系数；Pextw当前交互的正服务满意度；Nextw为当前交互的负服务满意度；sext为终端设备x和边缘节点e之间成功的历史交互次数；fext为终端设备x和边缘节点e之间失败的历史交互次数；所述步骤A2中时间衰减程度的表达式如下：其中：Δtw为第w次交互结束到当前交互开始的时间间隙；所述步骤A2中资源分配率的计算公式如下：其中：sourceext为边缘节点e在当前时隙中能提供给终端设备x的资源量；sourceet为边缘节点e在当前时隙中所能提供的资源总量。

全文数据：

权利要求：

百度查询：国网重庆市电力公司电力科学研究院;国网重庆市电力公司;国家电网有限公司一种基于深度强化学习的边缘物联网代理资源分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于负极材料粉尘除尘器_天津燃洁斯工业设备有限公司_202322051874.7

下一篇：键合劈刀_有研(广东)新材料技术研究院_202322391831.3

相关技术

一种用于负极材料粉尘除尘器_天津燃洁斯工业设备有限公司_202322051874.7

键合劈刀_有研(广东)新材料技术研究院_202322391831.3

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

一种轴承游隙检测装置_无锡凌拓智能装备有限公司_202322468779.7

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

一种钻井液生产粉尘收集装置_新乡市隆驰化学有限责任公司_202322388957.5

一种LED线性地埋灯_上海科铃纳光电科技有限公司_202322244017.9

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

一种高效散热电源_广州市力为电子有限公司_202322175013.X

边缘相关技术

一种薄膜边缘油墨检测设备_苏州鋆盛自动化科技有限公司_202322422956.8

一种允许边缘变形的盖板_信利光电仁寿有限公司_202321349523.8

边缘物联代理实体的配网方法、系统及设备_成都汉度科技有限公司_202311205649.2

位于边缘的自动工厂数据记录器设备_费希尔-罗斯蒙特系统公司_202311381417.2

基于区域结构信息与边缘几何惩罚的SAR图像分割方法_中国航天科工集团八五一一研究所_202111564765.4

一种基于多尺度边缘特征检测的隧道识别模型及方法_清华大学苏州汽车研究院(相城)_202011007456.2

一种移动边缘计算网络的任务中继卸载方法_南京信息工程大学滨江学院_202011318708.3

基于边缘计算网关的负荷均衡方法、装置及终端_国网河北省电力有限公司电力科学研究院_202111489164.1

一种用于边缘采集装置的分布式管理方法_郑州中科集成电路与系统应用研究院_202211678789.7

基于区块链的边缘计算身份认证方法及系统_中国科学院信息工程研究所_202210320479.1

物联网相关技术

一种工业用物联网系统_青岛鹰眼自动化设备有限公司_202322762457.3

基于物联网的锅炉温度无线监测数据的高速传输方法及系统_河南省四通锅炉有限公司_202011124712.6

一种用于物联网AI协同服务平台的智能算法和模型_新睿信智能物联研究院(南京)有限公司_202110341808.6

一种基于物联网的电力载波集中器_河南泓旭电气有限公司_202010719301.5

一种高速网络中轻量级的物联网设备识别方法_东南大学_202210302232.7

基于SIM卡的物联网终端的证书密钥下载方法及系统_天翼物联科技有限公司_202111465368.1

一种农业物联网信息化管理终端_辽宁启远智能科技发展有限公司_202322065832.9

一种物联网离线生态流量数据监测装置_厦门四信通信科技有限公司_202322548266.7

一种物联网数据管理方法及装置_智慧工地科技(广东)有限公司_202311315144.1

基于共识算法的物联网设备集群协同方法及系统_湖北工业大学_202211089521.X

学习相关技术

具有降低的查找表学习速率的查找表学习方法及驱动电路_知微电子有限公司_202311208529.8

自学习照明群控系统及方法_非凡士智能科技(苏州)有限公司_202410150310.5

联邦学习方法、装置、设备及存储介质_杭州趣链科技有限公司_202011633747.2

一种学习用具和控制方法_张立华_201910399450.5

用于机器学习辅助预编码的设备和方法_矿业电信学校联盟_202080048329.9

利用模型增强的自监督学习_硕动力公司_202280060208.5

基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质_湖南大学_202111280872.4

联邦学习回归模型损失函数评估方法、装置及电子设备_上海零数众合信息科技有限公司_202410122725.1

一种基于深度学习的多属性融合空气质量预报方法_东南大学_202210299318.9

基于同态加密强化学习的电器负荷需求响应方法_河海大学_202210897543.2

龙图腾网&IPTOP

【发明授权】一种基于深度强化学习的边缘物联网代理资源分配方法_国网重庆市电力公司电力科学研究院;国网重庆市电力公司;国家电网有限公司_202211401605.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务