【发明授权】一种基于分层强化学习的车联网边缘计算任务卸载方法_广东利通科技投资有限公司;复旦大学_202110772708.9

申请/专利权人：广东利通科技投资有限公司;复旦大学

申请日：2021-07-08

公开（公告）日：2024-04-12

公开（公告）号：CN113568675B

主分类号：G06F9/445

分类号：G06F9/445;G06F9/50;G06F30/15;G06F30/27;G06N3/042;G06N3/092;G06F111/04;G06F111/06

优先权：

专利状态码：有效-授权

法律状态：2024.04.12#授权;2021.11.16#实质审查的生效;2021.10.29#公开

摘要：本发明属于车联网边缘计算技术领域，具体为一种基于分层强化学习的车联网边缘计算任务卸载方法。本发明首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延‑能耗‑费用联合损失函数为目标的优化问题，其中优化参数为任务执行顺序、计算决策、本地资源分配和传输功率控制；然后将具有任务关联性的应用以有向无环图的形式表示，并利用图神经网络挖掘其中的隐含特征，同时利用分层强化学习算法处理离散连续混合动作空间。以真实环境中采取的汽车速度作为数据集进行仿真实验，结果表明，相比于启发式算法，本发明方法在多种环境参数下均能自适应地调节任务卸载和资源分配策略，进而更有效地降低系统损失函数。

主权项：1.一种基于分层强化学习的车联网边缘计算任务卸载方法，其特征在于，具体步骤如下：一对车联网边缘计算进行数学建模，具体包括：车联网边缘计算系统模型中包含M个基站和一辆汽车，边缘服务器部署于基站中；各基站均匀分布于道路两旁，且拥有相同的覆盖范围R，各基站仅能与其覆盖范围内的车载设备建立连接；汽车以动态变化的速度v行驶于道路中；使用动态分割技术，将车载设备中的计算密集型应用分解为N个具有执行先后顺序的子任务，并以有向无环图G＝V,E表示，各节点i∈V代表一个任务，各有向边ei,j∈E代表任务i和任务j的处理顺序，即任务j需要在任务i处理完成后才能执行；问题的优化目标为最小化时延-能量-费用联合损失函数，定义为任务的处理时延、能量消耗和服务费用的加权和；基于任务的计算决策ki，即若ki＝0表示任务本地执行，反之若ki＝1表示任务边缘执行，得到任务i的处理时延ti、能量消耗ei和服务费用ci分别为：其中，和分别为任务i的本地处理时延和边缘处理时延，和分别为任务i的本地能量消耗和边缘能量消耗，代表任务i的边缘服务费用；由此，所有任务的损失函数和U为：其中，0≤β1,β2,β3≤1表示加权系数；为了最小化系统损失函数U，需要联合优化任务卸载和资源分配策略；问题的优化参数分别为任务的执行顺序计算决策本地计算CPU频率和边缘计算传输功率于是，车联网边缘计算任务卸载问题建模为以下非线性混合整数规划： s.t.C1:yi∈{0,1,…,N}C2:ki∈{0,1}C3:C4:0≤pi≤pmaxC5:其中，约束C1限制任务编号的取值，约束C2限制任务计算决策为本地执行或者边缘执行之一，约束C3和约束C4限制本地CPU频率和传输功率的取值范围，约束C5限制任务的执行先后顺序；该非线性混合整数规划问题为非凸且NP难，优化变量包含两个整数参数向量和以及两个连续参数和二利用图神经网络提取有向无环图特征，具体包括：图神经网络为图注意力网络，由两层隐含层组成，并以ReLU作为激活函数；图神经网络的输入为节点特征矢量集其中F表示各节点特征的特征维数，N为节点特征矢量集h中分量的个数；在隐含层中，各节点输入信息通过共享的线性转换矩阵转变为高维特征，其中，F′表示各节点新生成的高维特征的特征维数；此外，通过引入注意力机制a:在隐含层中，将不同相邻节赋予不同的重要性程度；以相邻节点对的高维特征作为输入，计算得到注意力系数eij，代表节点j的特征对于节点i的重要性程度，即：得到节点i所有相邻节点对包括节点i本身的注意力系数eij后，对其进行归一化操作；具体是通过引入softmax函数，得到归一化注意力系数e′ij：其中，表示节点i的相邻节点集合；为了更好的特征提取效果，引入多头注意力机制，即独立进行K次注意力操作ak后将其结果进行联立,最终得到的输出特征，其计算式为：其中||表示联立操作，K表示注意力头数，e′ijk和Wk分别表示第k次注意力操作的归一化注意力系数和权重矩阵；通过上述操作，节点的特征维度由F上升为KF′；三定义分层动作空间和强化学习建模，具体包括：智能体的动作空间为分层结构，具体分为以下三部分：1任务序号：车载设备需要决定任务处理的先后顺序，并不违背任务关联性；2计算决策：车载设备需要决定任务为本地执行或者边缘执行；3连续参数选择：若车载设备决定任务为本地执行，则需要确定CPU频率的分配；若车载设备决定任务为边缘执行，则需要确定传输功率；于是，问题的动作空间A表述为：A＝{ad,ac}＝{yi,ki＝0,fi∪yi,ki＝1,pi}，其中，ad代表离散动作集，ac代表连续动作集；定义智能体在时刻t选取的动作为at＝yt,kt,ft,pt，相应的状态动作值函数为Qst,at，其中，又此，得出本问题下的最优贝尔曼方程：其中，rt为单步奖励，γ为折扣因子；车联网边缘计算任务卸载问题可建模为马尔可夫决策过程，其中各元素的物理意义如下：1状态空间：包含任务状态和环境状态两部分；其中任务状态为有向无环图中各任务的初始信息其中DIi和DOi分别为任务的输出和输出数据量，Ci为任务的计算资源消耗，Ei代表任务完成情况；环境状态包括车辆与当前连接基站起始点间的距离dt，剩余未完成的任务数nt，以及车辆前10秒的速度2动作空间：为分层结构，共四个动作，包含两个离散动作和两个连续动作，分别为任务序号yt，计算决策kt，本地分配CPU频率ft和传输功率pt；3奖励函数：由于本问题的优化目标为最小化任务的时延-能量-费用联合损失函数，因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和ut＝β1ti+β2ei+β3ci；四设计深度分层任务卸载算法流程，具体包括：智能体即车载设备的决策系统由图注意力网络和分层动作决策网络构成，以实现状态信息和分层动作空间的映射；首先，初始化图注意力网络Qgs,a；θg，分层动作决策网络Qps,a；θp及其目标网络Q′ps,a；θ′p，其中θ′p＝θp，同时初始化经验回放池D，以存储环境转移信息；在训练过程中，对于每个决策时刻t，智能体已完成上一个任务TASKt-1，并准备执行新的任务TASKt；此时，智能体观测到任务状态和环境状态将其输入图注意力网络中进行特征提取，并最终得出各任务的Q值的估计；其中估计Q值最大的任务设为当前时刻t将处理的任务TASKt，同时确定了任务序号yt的选择；接着，将该任务的特征信息和环境信息作为分层动作决策网络的输入，并最终得到分层动作的选择at＝{yt,kt＝0,ft∪yt,kt＝1,pt}和相应Q值Qpst,at；θp；为了充分探索动作空间，离散动作yt和kt的决定将依照∈-贪婪策略，连续动作ft和pt的决定将遵循OU过程；待分层动作at确定后，若计算决策kt＝0，则任务TASKt将以CPU频率ft本地执行；若计算决策kt＝1，则任务TASKt将以传输功率pt上传至边缘服务器执行；之后，环境状态将转变为st+1，并反馈给智能体t时刻的单步奖励rt；智能体将环境转变st,at,st+1,rt储存至经验回放池D中；在参数更新过程中，智能体从经验回放池D中随机采样出批量训练数据sj,aj,sj+1,rj；对于图注意力网络和分层动作决策网络，目标值zj均设为单步奖励rj与目标网络输出V值之和，即：zj＝rj+γV′sj其中，γ为折扣因子；为了使网络估计Q值逼近目标值，损失函数设为目标值zj和当前网络输出Q值的均方差，即：最后，以最小化损失函数为目标，对各网络参数进行梯度下降更新，即：其中，αg和αp分别为图注意力网络和分层动作决策网络的学习率，τ为目标网络更新率。

全文数据：

权利要求：

百度查询：广东利通科技投资有限公司;复旦大学一种基于分层强化学习的车联网边缘计算任务卸载方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

下一篇：一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

相关技术

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

一种可调节车挡_自贡市城市规划设计研究院有限责任公司_202322421392.6

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

边缘相关技术

一种薄膜边缘油墨检测设备_苏州鋆盛自动化科技有限公司_202322422956.8

一种允许边缘变形的盖板_信利光电仁寿有限公司_202321349523.8

边缘物联代理实体的配网方法、系统及设备_成都汉度科技有限公司_202311205649.2

位于边缘的自动工厂数据记录器设备_费希尔-罗斯蒙特系统公司_202311381417.2

一种基于多尺度边缘特征检测的隧道识别模型及方法_清华大学苏州汽车研究院(相城)_202011007456.2

基于区域结构信息与边缘几何惩罚的SAR图像分割方法_中国航天科工集团八五一一研究所_202111564765.4

一种移动边缘计算网络的任务中继卸载方法_南京信息工程大学滨江学院_202011318708.3

基于边缘计算网关的负荷均衡方法、装置及终端_国网河北省电力有限公司电力科学研究院_202111489164.1

一种用于边缘采集装置的分布式管理方法_郑州中科集成电路与系统应用研究院_202211678789.7

一种电脑喇叭用的边缘用减震泡棉_吴江市集创电子材料有限公司_202322470356.9

计算相关技术

计算处理器和计算方法_AMS有限公司_201980005600.8

热负荷计算装置_矢崎能源系统公司_202011292615.8

一种计算设备_超聚变数字技术有限公司_202211288997.6

一种计算板卡_深圳云朵数据科技有限公司_201910492846.4

计算设备的运行方法、装置、计算设备及存储介质_华为技术有限公司_202211289805.3

一种基于机器学习的计算方法和计算单元_阿里巴巴集团控股有限公司_201910816995.1

多计算机切换装置_锋厚科技股份有限公司_202321845368.9

温度估计装置、温度估计方法、计算机可读存储介质和计算机程序产品_索尼集团公司_201980071606.5

颜色映射方法、系统、计算机设备及计算机可读存储介质_佛山市青松科技股份有限公司_202211362820.6

将规范变换为计算机程序的方法、计算机系统和存储设备_起元技术有限责任公司_201880070092.7

车联网相关技术

基于张量分解的车联网RIS辅助注意力机制通信与感知方法_上海师范大学_202211382306.9

电动车转把和电动车_合肥松果智造智能科技有限公司_202322327055.0

载车板_南通科瑞恩智能装备有限公司_202322559389.0

配电物联网节点安全接入的方法及装置_国网冀北电力有限公司电力科学研究院_202010660649.1

一种工业用物联网系统_青岛鹰眼自动化设备有限公司_202322762457.3

一种ADS-B天线及物联网卫星_北京和德宇航技术有限公司_202322591062.1

铣车复合机床_英诺莱比(北京)科技有限公司_202322435383.2

新能源车用多档位电驱动单元、新能源车_里卡多科技咨询(上海)有限公司_202322745735.4

用于机动车的高压电池和机动车_宝马股份公司_201980020963.9

一种机动车维修用工具车_海南恒日汇贸易有限公司_202321897726.0

龙图腾网&IPTOP

【发明授权】一种基于分层强化学习的车联网边缘计算任务卸载方法_广东利通科技投资有限公司;复旦大学_202110772708.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务