买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于学习和Belady算法的高效缓存驱逐策略_北京工业大学_202311470146.8 

申请/专利权人:北京工业大学

申请日:2023-11-07

公开(公告)日:2024-02-06

公开(公告)号:CN117519971A

主分类号:G06F9/50

分类号:G06F9/50;G06F30/27;G06F119/02

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.02.27#实质审查的生效;2024.02.06#公开

摘要:一种基于学习和Belady算法的高效缓存驱逐策略涉及边缘计算领域。随着5G网络的迅速发展,海量数据的传输加剧了骨干网络的负担,导致网络延迟增加。边缘缓存能够将缓存功能下沉到网络边缘,就近为用户提供所需的内容,从而减轻骨干网络压力,并降低网络延迟。然而,边缘服务器的性能和缓存容量的限制,使得边缘缓存需要一个高效的缓存策略来提高缓存命中率。本发明实现了一个高效的缓存策略。此外,本发明基于梯度增强机GBM和长短期记忆网络LSTM,以实现对内容请求的过滤和对内容的下次请求的到达时间进行预测。仿真结果表明,该方案既能够具有较高的缓存命中率,也能够明显降低计算开销。

主权项:1.一种基于学习和Belady算法的高效缓存驱逐策略,其特征在于:应用场景由云端、边缘服务器和移动设备三部分组成;移动设备:是内容请求的发起者;当他们请求内容时,首先会在查询所在边缘服务器的缓存内容,如果命中,则直接从边缘服务器获得内容,否则将从云端获取内容;边缘服务器:用于缓存流行内容,为移动设备就近提供内容服务;当内容请求到达边缘服务器时,如果请求的内容位于边缘服务器中,则将内容分发到移动设备;如果内容不位于边缘服务器,则需要从云端获取,并基于该内容的信息对其进行预测,以判断该内容是否需要缓存,并作出缓存决策;云端:用于为边缘服务器和移动设备分发内容;当请求到达云端时,云端会将内容分发到边缘服务器,再由边缘服务器将内容分发给移动设备;1系统模型模型构建包括两部分:1模型训练;通过历史信息来提取训练数据,然后将获得的训练数据输入到缓存预过滤器和时间预测模型中,进行模型训练;机器学习模型所需要的输入包括内容的历史到达时间间隔序列Tin、内容的存续时间Ts、内容的等待时间Tw和内容流行度特征sim;获取内容的下次到达时间间隔Tout作为模型的预测目标;当训练数据量达到阈值时,即可进行模型训练,更新模型;2模型应用;首先,考虑到内容的到达过程的时变性,每个时隙开始时,缓存内所有内容的状态会被重置为未预测,用0表示;然后,当请求内容c命中时,该内容状态重置为未预测;如果内容未命中,则需要获取该内容的特征数据,包括过去到达时间间隔序列τ、存续时间ts和内容的流行度特征simtc,其中simtc表示内容c在时隙t内的内容流行度特征,将特征数据输入到缓存预过滤器,判断该内容是否需要被缓存;如果不需要缓存,则该算法结束;如果需要,则根据输入预测内容的下次到达时间间隔tp;如果当前已预测的内容数量小于Nmax-n,则从Cnp中随机采样n个内容,以预测它们的下次到达时间,这里Nmax是缓存空间中的内容数量,n是每次采样的大小;最后,驱逐已预测内容Cp中下次到达时间最远的内容;2数据处理首先,设置一个滑动窗口来存储最新的缓存请求;然后,根据记录的信息来收集训练信息;每个请求包括缓存内容的身份标识、其发布时间、标签以及请求内容的历史到达时间;根据Movielen数据集的特点,将滑动窗口设置为1500000,这能够涵盖一年以内的请求记录,同时能够保证滑动窗口记录足够多的数据,以用于训练和预测,同时保证了训练出来的模型能够提取到内容1年以内的请求特点;当缓存未命中时,就需要对窗口内的内容进行随机采样,为了防止采样结果偏向于流行内容,采样将基于内容,而不是内容请求;假设采样的内容是该内容的第l个到达记录,则需要获取以下数据:1获取内容的历史到达时间间隔序列[τl-31,τl-30,...,τl-1]:记录的时间间隔序列的长度为31,时间间隔序列是从内容的历史到达时间[tl-31,tl-30,...,tl]中计算得出,其中tl表示其在滑动窗口中第l次到达记录的时间,是通过随机采样获取的;时间间隔的计算公式为τ1=t2-t1,并且其他变量遵循相同的计算规则;2获取内容的等待时间tw:它表示缓存中内容的等待时间;由于无法提前得到即将到来的请求,因此该值通过随机采样来确定,即从均匀分布S[0,τl中随机采样来获得该值,其中τl表示内容下次到达的时间间隔;3获取存续时间ts:它表示内容在一个平台上存在的时间;因此,存续时间ts=tl-tr,其中tr是内容的发布时间,tl表示内容采样所在的时间点;4获取内容流行度特征simtc:它代表了内容c在时隙t内的流行特征;首先,将滑动窗口内内容请求的操作周期划分为多个大小相等的离散时隙,根据MovieLens数据集的特点,时隙大小设置为1天;假设所有请求的内容总共有L个标签,则时隙t-1内的缓存流行度用L维向量来表示,其中表示第L个标签出现在时隙t-1中的频率;然后,利用指数衰减计数器来获得时隙t中的内容流行度计算公式如下: 其中m表示预测所需要的过去m个时隙的内容流行度,α表示衰减指数,将衰减指数设置为0.5;如果对内容c的请求发生在时隙t内,使用余弦相似度来计算其流行度特征;计算公式如下: 其中是时隙t内第j个标签的预测频率,表示内容c是否拥有第j个标签,且5获取内容的下次到达时间τl:它是模型的预测目标;最后,通过对所有内容请求进行数据提取,能够得到训练数据的输入,其中包括历史到达时间间隔序列Tin、存续时间Ts、等待时间Tw和内容流行度特征序列sim;并获得训练数据的预测目标,即内容的下次到达时间间隔Tout;当训练数据量达到50000时,对模型进行训练更新;3缓存预过滤器设计了一个基于GBM的二进制分类模型的预过滤器,通过该预过滤器,将请求的内容分为需要缓存和不需要缓存;在模型训练前,由于提取到的数据中只有内容的下次到达时间间隔,需要将其转化成二模型所需的分类标签;因此,需要将下次到达时间间隔转换成二分类数据;首先,确定阈值τe;然后,通过τe,将训练数据中的预测值Tout转换成分类标签Y,处理方法如下式所示: 其中τi表示第i个训练数据的预测标签,Yi=0表示该内容需要缓存,Yi=1表示其不需要缓存;利用主成分分析对输入特征进行降维;通过对输入特征的每个维度进行以下操作,分别是标准化数据、计算协方差矩阵、计算特征向量和特征值,然后更加特征值的大小选择主要的特征向量,最后,将原始数据投影到所选的主成分上,从而得到降低维度的特征,这些特征包括8位历史到达时间间隔、等待时间和存续时间;在确定模型的输入和输出后,对训练数据进行处理,等待训练数据量达到60000时,开始对模型进行训练;GBM模型将多个弱分类器组合成一个强分类器,每个弱分类器是一个决策树模型;模型训练时的输入数据为[Tin,Ts,sim],其中Tin是内容的历史到达时间序列,Ts是内容的存续s时间,sim是内容的流行度特征;训练数据的预测标签为Y,模型的损失函数是交叉熵损失函数;然后,在每一次迭代中,它都会训练一个新的决策树模型,用来拟合上一轮模型输出结果的残差即预测值和预测目标之差,直到模型的误差值趋于一个稳定的数值,即模型收敛;4时间预测模型时间预测模型的训练数据包括输入[Tin,Tw,Ts+Tw,sim]和预测目标Tout-Tw;其中Tin是内容的历史到达时间间隔序列,该特征能够提取出内容的到达过程隐藏特征,是预测内容下次到达时间的主要特征;Tw是内容在缓存空间中的等待时间,能够处理内容到达的时变性;Ts是内容的存续时间,sim是内容的流行度特征,这些特征能够帮助模型处理没有或缺乏过去达到时间序列的请求内容;Tout为内容的下次到达时间间隔,预测目标Tout-Tw是在下次到达时间间隔的基础上,减去了一个等待时间,即为距离下次到达时间还剩下的时间;所使用的损失函数为均方误差和标准差之和;假设预测值y与预测目标之间的差值为则损失函数如公式4所示: 这里的N表示样本的数量,表示第i个样本预测值与预测目标之间的差值;首先,利用长短期记忆网络LSTM提取过去到达时间间隔序列中的时间依赖性特征;LSTM够有效地处理时间序列的长期依赖问题,使得网络更好地捕捉输入序列的长期信息;因此,通过LSTM模型,得到一个固定维向量h即LSTM的隐藏状态,即是时间依赖性特征,时间依赖性特征的维度设置为64,还使用了内容的存续时间ts、等待时间tw和内容的流行度特征simtc,其中内容流行度特征simtc是通过内容的特征向量与对应时隙内内容流行度特征向量的余弦值;提取完特征后,将特征值输入到一个二层多层感知机MLP,以此来获得内容下次到达时间的预测值;在隐藏层中使用的是rule激活函数;MLP的输入数据包括容流行度特征、时间依赖性特征、内容的存在时间和内容在缓存中的等待时间;即输入特征向量表示为x=[simtc,hi,ts,tw],其中simtc如公式2所示,hi=LSTMτi-1,hi-1,hi-1为第i-1层的隐藏状态,hi表示第i层隐藏状态,隐藏状态hi-1在经历一个LSTM网络后,能够输出隐藏特征hi;最后,通过一个全连接层,将MLP输出特征映射成内容的下次到达时间间隔τi;5驱逐规则将缓存内容分为已预测内容Cp和未预测内容Cnp,其中Cp中的内容记录着其下次到达时间Tp,它能够作为缓存决策的输入,而Cnp则是通过随机采样为预测模型提供预测数据,两种缓存状态是能够进行转换的;当缓存空间已满,且缓存未命中,如果已预测内容的数量达到了阈值,则模型将在已预测的内容中,选取其中下次到达时间最大的内容进行驱逐;否则,将先对缓存对象进行采样并预测,再进行缓存决策;当内容请求命中时,如果该内容为已预测,则将其状态修改为未预测;最后在驱逐规则中,引入了时隙的概念,在每个时隙开始时,缓存内容的状态需要重置为未预测,以对已预测对象的状态进行及时的更新。

全文数据:

权利要求:

百度查询: 北京工业大学 一种基于学习和Belady算法的高效缓存驱逐策略

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

Belady相关技术