买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于强化学习框架的D2D边缘缓存网络能耗管理方法_中国传媒大学_202310050550.3 

申请/专利权人:中国传媒大学

申请日:2023-02-01

公开(公告)日:2023-03-14

公开(公告)号:CN115802465A

主分类号:H04W52/24

分类号:H04W52/24;H04W28/02;H04L41/0894;H04L41/16

优先权:

专利状态码:有效-授权

法律状态:2023.04.21#授权;2023.03.31#实质审查的生效;2023.03.14#公开

摘要:本发明属于通讯技术领域,具体涉及一种基于强化学习框架的D2D边缘缓存网络能耗管理方法、系统,旨在解决现有D2D边缘缓存网络的碰撞率和网络能耗不平衡的问题。本方法包括:获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;基于所述输入数据,通过训练好的演员‑评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备。本发明完成网络中每个用户设备的内容分配,提高缓存命中率,并实现对网络吞吐量和能耗的优化。

主权项:1.一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,应用于D2D通信网络,所述D2D通信网络为由基站和D2D用户设备组成的通信网络,其特征在于,该方法包括以下步骤:步骤S100,获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;步骤S200,基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。

全文数据:

权利要求:

百度查询: 中国传媒大学 基于强化学习框架的D2D边缘缓存网络能耗管理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。