买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度强化学习的信息年龄可感知资源分配方法_南京理工大学_202210228341.9 

申请/专利权人:南京理工大学

申请日:2022-03-08

公开(公告)日:2024-04-23

公开(公告)号:CN114630299B

主分类号:H04W4/44

分类号:H04W4/44;H04W72/044;H04W72/52;H04W72/53;H04W72/542

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2022.07.01#实质审查的生效;2022.06.14#公开

摘要:本发明公开了一种基于深度强化学习的信息年龄可感知资源分配方法,具体为:输入车联网环境,基站初始化自身actor网络和critic网络的参数;在当前时隙中,基站先为环境中所有的车辆用户对分配信道和发射功率;车辆用户和蜂窝用户完成通信后,所有链路的剩余负载量和信息年龄更新;基站得到环境反馈的奖励后,感知并收集环境当前状态信息,同时缓冲池存储此时隙产生的样本数据;当样本数量足够时,根据置信域策略优化算法中的迭代公式来更新actor网络和critic网络的参数,更新完成后清空缓冲池;当达到训练回合的最大步数时,重新输入车联网环境开始下一回合。本发明通过最小化平均信息年龄和平均功耗来支持车联网中各类实时性敏感应用。

主权项:1.一种基于深度强化学习的信息年龄可感知资源分配方法,其特征在于,包括以下步骤:步骤1、输入车联网环境,基站初始化自身actor网络和critic网络的参数;步骤2、在当前时隙中,基站先为环境中所有的车辆用户对分配信道和发射功率;步骤3、车辆用户和蜂窝用户完成通信后,所有链路的剩余负载量和信息年龄更新;步骤4、基站得到环境反馈的奖励后,感知并收集环境当前状态信息,同时缓冲池存储此时隙产生的样本数据;步骤5、当样本数量足够时,根据置信域策略优化算法中的迭代公式来更新actor网络和critic网络的参数,更新完成后清空缓冲池;具体为:1Actor网络在置信域策略优化算法中,actor网络可对策略进行拟合,并作为策略函数输出高维的动作与环境交互;Actor网络通过最大化使用新策略得到的累积奖励值与使用旧策略得到的累积奖励值之差,可以保证新策略可获得的累积奖励值高于旧策略可获得的累积奖励值,即新策略好于旧策略,从而实现策略总是在单调地改善这一目标;同时,为了确保策略更新过程的稳定性,置信域策略优化算法引入了KL散度约束来防止策略大幅度地变化;因此,actor网络的优化问题可表示为: 其中,θ是策略参数向量,a和s分别是动作向量和状态向量,是在轨迹上求期望,DKL·是求两个分布的KL散度,是未更新的策略,πθ是更新后的策略,δ是信任域中KL散度期望的阈值,是的优势函数,即在状态s下,动作a相对于平均动作的优势;针对此优化问题,先利用自然策略梯度法简化优化问题,再利用共轭梯度法避免对Fisher信息矩阵进行求逆操作,最后引入具有回溯性质的线搜索方法可得θ的迭代方程: 其中,x是形如Fx=g的线性方程组的解,Fθ是Fisher信息矩阵,gθ是梯度,是actor网络的步长,i是首个能同时满足期望KL散度约束与策略有所改善要求的非负整数;2Critic网络在置信域策略优化算法中,critic网络可对状态值函数进行拟合,并作为价值函数根据高维的状态输入来对actor网络进行评估和指导;Critic网络通过最小化如下的损失函数来提高其预测奖励的准确度:Lossw=rt+γVst+1,w′-Vst,w2其中,w是critic评价网络的参数向量,w′是critic目标网络的参数向量,折扣因子γ∈[0,1反映了未来奖励对累积奖励的影响,Vst,w是critic评价网络t时刻的状态价值,Vst+1,w′是critic目标网络t+1时刻的状态价值;利用L-BFGS方法来求解此无约束的非线性规划问题,可得到w的迭代公式为:wk+1=wk-ριDkgk其中,gk是梯度,ρ是critic网络的步长,Dk是Hessian矩阵逆矩阵的近似,w1设为随机初始点,ι是第一个可以保证critic网络参数向量平滑更新的非负整数;步骤6、当达到训练回合的最大步数时,结束当前回合,开始下一回合,重新输入车联网环境,重复步骤2~步骤5。

全文数据:

权利要求:

百度查询: 南京理工大学 一种基于深度强化学习的信息年龄可感知资源分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。