买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于NOMA-MEC强化学习资源分配与任务卸载方法_南京信息工程大学滨江学院;中科怡海高新技术发展江苏股份公司_202110756466.4 

申请/专利权人:南京信息工程大学滨江学院;中科怡海高新技术发展江苏股份公司

申请日:2021-07-05

公开(公告)日:2024-03-29

公开(公告)号:CN113543342B

主分类号:H04W72/53

分类号:H04W72/53;H04W72/0453;H04W24/02;H04W16/22

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2021.11.09#实质审查的生效;2021.10.22#公开

摘要:本发明公开了基于NOMA‑MEC强化学习资源分配与任务卸载方法,属于移动通信网络技术领域,把网络系统中的每个移动设备都看做独立的智能体,采用基于Actor‑Critic网络结构的MADDPG方法,让每个移动设备都能学习到合适的策略,以达到最小化时延与能耗,移动设备采用NOMA技术和强化学习框架,通过对随机到达的任务和有限的子载波信道资源进行合理智能的分配,以得到最优策略。该发明有效地解决了移动设备中存在的任务量巨大的问题,同时降低整个通信过程中的时延,并在不同环境下得到最佳的资源分配方式,提高了信道资源利用效率。

主权项:1.基于NOMA-MEC强化学习资源分配与任务卸载方法,其特征在于:包括如下步骤:步骤1.设定网络中,共有N个移动设备,即N个智能体,表示为{1,2...,n,...,N};共有M个子信道,表示为{1,2...,m,...,M};移动设备的任务表示为{t1,t2...,tn,...,tN},共有tN个任务;步骤2.采用NOMA技术,建立任务卸载和资源分配联合优化模型;针对网络中所有移动设备的载波信道分配和任务卸载建立联合优化模型;步骤3.将联合优化模型转化为马尔科夫决策过程模型,设定马尔科夫决策过程中的状态、动作和奖励;步骤4.通过MADDPG算法训练学习网络,训练的目标是最小化移动设备的时延,结果得到最优的联合子载波信道分配和任务卸载策略;所述的步骤2中,具体包括如下步骤:采用NOMA方式将移动设备接入到网络中,一条子信道可被多个移动设备占用,对于子信道m,其叠加的信号为Xm;在系统接收端,任一用户n在子信道m的接收信号为Yn,m;对于接收信号,按照信号功率进行大小排序,假设第n个移动设备的功率最强,首先对第n个移动设备进行解码,输出xn,恢复第n个移动设备的信号估计值,并从接收信号中减去第n个移动设备的估计值,得到剩下用户的信号,按照功率依次执行相同的操作,完成对所有移动设备的信号解码,解码后得到信噪比;利用香农公式求NOMA方式下第n个移动设备用户在子信道m上的最大信息速率Rn,m;用户n通过子信道m上传任务到MEC服务器进行任务卸载的总延迟为: 式中,ck为MEC服务器的计算能力,rn为MEC服务器计算后的结果数据;用户n在本地计算的延迟为: 式中,fn移动用户的计算能力;所述的步骤4中,训练的目标是最小化移动设备的时延,具体包括如下步骤:4.1当经验池D中的样本达到一定数量后,从经验池D中采样批次数据进行网络训练,将状态si输入到第i个智能体的Actor估计网络中,得到动作ai以及奖励ri,然后将x和a输入到Critic估计网络中,得到当前时刻的估计状态-动作函数,即估计Q函数,将下一时刻的状态si′输入到Actor目标网络,得到下一时刻的动作a′i,将x′和a′输入到Critic目标网络中,得到目标Q函数yi,再利用最小化Loss函数,更新Critic估计网络,由于Critic网络有估计和目标两个网络,表示Critic目标网络输出的Q值,μ′=[μ′1,μ′2…μ′n]为目标策略具有滞后更新的参数θj′;4.2智能体根据确定性策略梯度和Critic估计网络中得到的Q函数,来更新Actor估计网络,针对第i个智能体的累计期望奖励Jμi,策略梯度表示

全文数据:

权利要求:

百度查询: 南京信息工程大学滨江学院;中科怡海高新技术发展江苏股份公司 基于NOMA-MEC强化学习资源分配与任务卸载方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。