【发明授权】一种基于深度强化学习的信息年龄可感知资源分配方法_南京理工大学_202210228341.9

导航：龙图腾网> 最新专利技术> 一种基于深度强化学习的信息年龄可感知资源分配方法_南京理工大学_202210228341.9

申请/专利权人：南京理工大学

申请日：2022-03-08

公开（公告）日：2024-04-23

公开（公告）号：CN114630299B

主分类号：H04W4/44

分类号：H04W4/44;H04W72/044;H04W72/52;H04W72/53;H04W72/542

优先权：

专利状态码：有效-授权

法律状态：2024.04.23#授权;2022.07.01#实质审查的生效;2022.06.14#公开

摘要：本发明公开了一种基于深度强化学习的信息年龄可感知资源分配方法，具体为：输入车联网环境，基站初始化自身actor网络和critic网络的参数；在当前时隙中，基站先为环境中所有的车辆用户对分配信道和发射功率；车辆用户和蜂窝用户完成通信后，所有链路的剩余负载量和信息年龄更新；基站得到环境反馈的奖励后，感知并收集环境当前状态信息，同时缓冲池存储此时隙产生的样本数据；当样本数量足够时，根据置信域策略优化算法中的迭代公式来更新actor网络和critic网络的参数，更新完成后清空缓冲池；当达到训练回合的最大步数时，重新输入车联网环境开始下一回合。本发明通过最小化平均信息年龄和平均功耗来支持车联网中各类实时性敏感应用。

主权项：1.一种基于深度强化学习的信息年龄可感知资源分配方法，其特征在于，包括以下步骤：步骤1、输入车联网环境，基站初始化自身actor网络和critic网络的参数；步骤2、在当前时隙中，基站先为环境中所有的车辆用户对分配信道和发射功率；步骤3、车辆用户和蜂窝用户完成通信后，所有链路的剩余负载量和信息年龄更新；步骤4、基站得到环境反馈的奖励后，感知并收集环境当前状态信息，同时缓冲池存储此时隙产生的样本数据；步骤5、当样本数量足够时，根据置信域策略优化算法中的迭代公式来更新actor网络和critic网络的参数，更新完成后清空缓冲池；具体为：1Actor网络在置信域策略优化算法中，actor网络可对策略进行拟合，并作为策略函数输出高维的动作与环境交互；Actor网络通过最大化使用新策略得到的累积奖励值与使用旧策略得到的累积奖励值之差，可以保证新策略可获得的累积奖励值高于旧策略可获得的累积奖励值，即新策略好于旧策略，从而实现策略总是在单调地改善这一目标；同时，为了确保策略更新过程的稳定性，置信域策略优化算法引入了KL散度约束来防止策略大幅度地变化；因此，actor网络的优化问题可表示为：其中，θ是策略参数向量，a和s分别是动作向量和状态向量，是在轨迹上求期望，DKL·是求两个分布的KL散度，是未更新的策略，πθ是更新后的策略，δ是信任域中KL散度期望的阈值，是的优势函数，即在状态s下，动作a相对于平均动作的优势；针对此优化问题，先利用自然策略梯度法简化优化问题，再利用共轭梯度法避免对Fisher信息矩阵进行求逆操作，最后引入具有回溯性质的线搜索方法可得θ的迭代方程：其中，x是形如Fx＝g的线性方程组的解，Fθ是Fisher信息矩阵，gθ是梯度，是actor网络的步长，i是首个能同时满足期望KL散度约束与策略有所改善要求的非负整数；2Critic网络在置信域策略优化算法中，critic网络可对状态值函数进行拟合，并作为价值函数根据高维的状态输入来对actor网络进行评估和指导；Critic网络通过最小化如下的损失函数来提高其预测奖励的准确度：Lossw＝rt+γVst+1,w′-Vst,w2其中，w是critic评价网络的参数向量，w′是critic目标网络的参数向量，折扣因子γ∈[0,1反映了未来奖励对累积奖励的影响，Vst,w是critic评价网络t时刻的状态价值，Vst+1,w′是critic目标网络t+1时刻的状态价值；利用L-BFGS方法来求解此无约束的非线性规划问题，可得到w的迭代公式为：wk+1＝wk-ριDkgk其中，gk是梯度，ρ是critic网络的步长，Dk是Hessian矩阵逆矩阵的近似，w1设为随机初始点，ι是第一个可以保证critic网络参数向量平滑更新的非负整数；步骤6、当达到训练回合的最大步数时，结束当前回合，开始下一回合，重新输入车联网环境，重复步骤2～步骤5。

全文数据：

权利要求：

百度查询：南京理工大学一种基于深度强化学习的信息年龄可感知资源分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

下一篇：一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

相关技术

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

一种无缝钢管送料设备_宁波东进钢管有限公司_202322167126.5

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

信息相关技术

信息发送、信息接收方法及装置_华为技术有限公司_201910169504.9

信息处理装置、信息处理方法以及程序_索尼公司_201880080945.5

信息处理装置_丰田自动车株式会社_202311341895.0

信息处理方法_丰田自动车株式会社_202311358127.6

信息处理装置_丰田自动车株式会社_202311246991.7

信息处理装置_丰田自动车株式会社_202311354956.7

信息处理装置、车辆、信息处理方法以及记录有程序的记录介质_丰田自动车株式会社_202311146728.0

信息处理设备、信息处理方法和计算机存储介质_丰田自动车株式会社_202210065976.1

手术系统、信息处理设备和信息处理方法_索尼公司_201880072512.5

一种数据信息的信息维度升维处理方法及系统_杭银消费金融股份有限公司_202410064829.1

年龄相关技术

人脸年龄变化图像对抗生成方法及系统_中国科学院自动化研究所_202010441089.0

一种基于深度强化学习的信息年龄可感知资源分配方法_南京理工大学_202210228341.9

一种基于表皮角质层厚度的甲鱼年龄判断方法_金华市水产技术推广站(金华市水生动物疫病防控中心)_202410056470.3

一种感知误差年龄驱动的采样和调度联合设计框架_上海交通大学_202410014658.1

一种基于风格融合与域选结构的人脸年龄合成方法_河北工业大学_202111240317.9

用于治疗与年龄相关的肌肉病症的爱帕琳肽受体调节剂_百爱及生物医药公司_202280040708.2

一种年龄分布预测方法、装置、设备及存储介质_阳光人寿保险股份有限公司_202311605882.X

一种基于信息年龄和阈值策略的状态更新方法_浙江工商大学_202310519091.9

一种测定碰撞造山带峰期变质年龄的方法_核工业北京地质研究院_202311846143.X

生成模型并识别年龄和性别的方法、装置、设备和介质_北京百度网讯科技有限公司_202110115808.4

感知相关技术

用于内容感知填充的内容感知采样区域的自动合成_奥多比公司_202010108650.3

基于感知的通信方法及装置_华为技术有限公司_202211296757.0

一种基于物联感知的多模态数据智能推荐方法及系统_湖南麓川信息科技有限公司_202410137355.9

面向触觉感知的高动态阵列式电容测量电路及其测量方法_之江实验室_202110830626.5

用于深度学习的数据感知存储分层和生命周期数据估值_慧与发展有限责任合伙企业_202310766514.7

感知测量建立方法、电子设备及存储介质_北京小米移动软件有限公司_202280003117.8

基于多类别自适应感知网络的检测方法、系统及存储介质_泉州市联友软件科技有限公司_202410078651.6

一种基于感知损失的乳腺MRI影像时间序列生成方法_杭州电子科技大学_202210058765.5

基于LEGO-LOAM的可调式大角度探测感知及控制方法_智能移动机器人(中山)研究院_202110822519.8

一种面向流引导纳米网络循环感知的机会路由方法_浙江工业大学_202111475640.4

龙图腾网&IPTOP

【发明授权】一种基于深度强化学习的信息年龄可感知资源分配方法_南京理工大学_202210228341.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务