买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于分层强化学习的车联网边缘计算任务卸载方法_广东利通科技投资有限公司;复旦大学_202110772708.9 

申请/专利权人:广东利通科技投资有限公司;复旦大学

申请日:2021-07-08

公开(公告)日:2024-04-12

公开(公告)号:CN113568675B

主分类号:G06F9/445

分类号:G06F9/445;G06F9/50;G06F30/15;G06F30/27;G06N3/042;G06N3/092;G06F111/04;G06F111/06

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.11.16#实质审查的生效;2021.10.29#公开

摘要:本发明属于车联网边缘计算技术领域,具体为一种基于分层强化学习的车联网边缘计算任务卸载方法。本发明首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延‑能耗‑费用联合损失函数为目标的优化问题,其中优化参数为任务执行顺序、计算决策、本地资源分配和传输功率控制;然后将具有任务关联性的应用以有向无环图的形式表示,并利用图神经网络挖掘其中的隐含特征,同时利用分层强化学习算法处理离散连续混合动作空间。以真实环境中采取的汽车速度作为数据集进行仿真实验,结果表明,相比于启发式算法,本发明方法在多种环境参数下均能自适应地调节任务卸载和资源分配策略,进而更有效地降低系统损失函数。

主权项:1.一种基于分层强化学习的车联网边缘计算任务卸载方法,其特征在于,具体步骤如下:一对车联网边缘计算进行数学建模,具体包括:车联网边缘计算系统模型中包含M个基站和一辆汽车,边缘服务器部署于基站中;各基站均匀分布于道路两旁,且拥有相同的覆盖范围R,各基站仅能与其覆盖范围内的车载设备建立连接;汽车以动态变化的速度v行驶于道路中;使用动态分割技术,将车载设备中的计算密集型应用分解为N个具有执行先后顺序的子任务,并以有向无环图G=V,E表示,各节点i∈V代表一个任务,各有向边ei,j∈E代表任务i和任务j的处理顺序,即任务j需要在任务i处理完成后才能执行;问题的优化目标为最小化时延-能量-费用联合损失函数,定义为任务的处理时延、能量消耗和服务费用的加权和;基于任务的计算决策ki,即若ki=0表示任务本地执行,反之若ki=1表示任务边缘执行,得到任务i的处理时延ti、能量消耗ei和服务费用ci分别为: 其中,和分别为任务i的本地处理时延和边缘处理时延,和分别为任务i的本地能量消耗和边缘能量消耗,代表任务i的边缘服务费用;由此,所有任务的损失函数和U为: 其中,0≤β1,β2,β3≤1表示加权系数;为了最小化系统损失函数U,需要联合优化任务卸载和资源分配策略;问题的优化参数分别为任务的执行顺序计算决策本地计算CPU频率和边缘计算传输功率于是,车联网边缘计算任务卸载问题建模为以下非线性混合整数规划: s.t.C1:yi∈{0,1,…,N}C2:ki∈{0,1}C3:C4:0≤pi≤pmaxC5:其中,约束C1限制任务编号的取值,约束C2限制任务计算决策为本地执行或者边缘执行之一,约束C3和约束C4限制本地CPU频率和传输功率的取值范围,约束C5限制任务的执行先后顺序;该非线性混合整数规划问题为非凸且NP难,优化变量包含两个整数参数向量和以及两个连续参数和二利用图神经网络提取有向无环图特征,具体包括:图神经网络为图注意力网络,由两层隐含层组成,并以ReLU作为激活函数;图神经网络的输入为节点特征矢量集其中F表示各节点特征的特征维数,N为节点特征矢量集h中分量的个数;在隐含层中,各节点输入信息通过共享的线性转换矩阵转变为高维特征,其中,F′表示各节点新生成的高维特征的特征维数;此外,通过引入注意力机制a:在隐含层中,将不同相邻节赋予不同的重要性程度;以相邻节点对的高维特征作为输入,计算得到注意力系数eij,代表节点j的特征对于节点i的重要性程度,即: 得到节点i所有相邻节点对包括节点i本身的注意力系数eij后,对其进行归一化操作;具体是通过引入softmax函数,得到归一化注意力系数e′ij: 其中,表示节点i的相邻节点集合;为了更好的特征提取效果,引入多头注意力机制,即独立进行K次注意力操作ak后将其结果进行联立,最终得到的输出特征,其计算式为: 其中||表示联立操作,K表示注意力头数,e′ijk和Wk分别表示第k次注意力操作的归一化注意力系数和权重矩阵;通过上述操作,节点的特征维度由F上升为KF′;三定义分层动作空间和强化学习建模,具体包括:智能体的动作空间为分层结构,具体分为以下三部分:1任务序号:车载设备需要决定任务处理的先后顺序,并不违背任务关联性;2计算决策:车载设备需要决定任务为本地执行或者边缘执行;3连续参数选择:若车载设备决定任务为本地执行,则需要确定CPU频率的分配;若车载设备决定任务为边缘执行,则需要确定传输功率;于是,问题的动作空间A表述为:A={ad,ac}={yi,ki=0,fi∪yi,ki=1,pi},其中,ad代表离散动作集,ac代表连续动作集;定义智能体在时刻t选取的动作为at=yt,kt,ft,pt,相应的状态动作值函数为Qst,at,其中,又此,得出本问题下的最优贝尔曼方程: 其中,rt为单步奖励,γ为折扣因子;车联网边缘计算任务卸载问题可建模为马尔可夫决策过程,其中各元素的物理意义如下:1状态空间:包含任务状态和环境状态两部分;其中任务状态为有向无环图中各任务的初始信息其中DIi和DOi分别为任务的输出和输出数据量,Ci为任务的计算资源消耗,Ei代表任务完成情况;环境状态包括车辆与当前连接基站起始点间的距离dt,剩余未完成的任务数nt,以及车辆前10秒的速度2动作空间:为分层结构,共四个动作,包含两个离散动作和两个连续动作,分别为任务序号yt,计算决策kt,本地分配CPU频率ft和传输功率pt;3奖励函数:由于本问题的优化目标为最小化任务的时延-能量-费用联合损失函数,因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和ut=β1ti+β2ei+β3ci;四设计深度分层任务卸载算法流程,具体包括:智能体即车载设备的决策系统由图注意力网络和分层动作决策网络构成,以实现状态信息和分层动作空间的映射;首先,初始化图注意力网络Qgs,a;θg,分层动作决策网络Qps,a;θp及其目标网络Q′ps,a;θ′p,其中θ′p=θp,同时初始化经验回放池D,以存储环境转移信息;在训练过程中,对于每个决策时刻t,智能体已完成上一个任务TASKt-1,并准备执行新的任务TASKt;此时,智能体观测到任务状态和环境状态将其输入图注意力网络中进行特征提取,并最终得出各任务的Q值的估计;其中估计Q值最大的任务设为当前时刻t将处理的任务TASKt,同时确定了任务序号yt的选择;接着,将该任务的特征信息和环境信息作为分层动作决策网络的输入,并最终得到分层动作的选择at={yt,kt=0,ft∪yt,kt=1,pt}和相应Q值Qpst,at;θp;为了充分探索动作空间,离散动作yt和kt的决定将依照∈-贪婪策略,连续动作ft和pt的决定将遵循OU过程;待分层动作at确定后,若计算决策kt=0,则任务TASKt将以CPU频率ft本地执行;若计算决策kt=1,则任务TASKt将以传输功率pt上传至边缘服务器执行;之后,环境状态将转变为st+1,并反馈给智能体t时刻的单步奖励rt;智能体将环境转变st,at,st+1,rt储存至经验回放池D中;在参数更新过程中,智能体从经验回放池D中随机采样出批量训练数据sj,aj,sj+1,rj;对于图注意力网络和分层动作决策网络,目标值zj均设为单步奖励rj与目标网络输出V值之和,即:zj=rj+γV′sj其中,γ为折扣因子;为了使网络估计Q值逼近目标值,损失函数设为目标值zj和当前网络输出Q值的均方差,即: 最后,以最小化损失函数为目标,对各网络参数进行梯度下降更新,即: 其中,αg和αp分别为图注意力网络和分层动作决策网络的学习率,τ为目标网络更新率。

全文数据:

权利要求:

百度查询: 广东利通科技投资有限公司;复旦大学 一种基于分层强化学习的车联网边缘计算任务卸载方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。