买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于强化学习的服务功能链并行化部署方法及系统_嵩山实验室_202410049390.5 

申请/专利权人:嵩山实验室

申请日:2024-01-12

公开(公告)日:2024-04-30

公开(公告)号:CN117955853A

主分类号:H04L41/40

分类号:H04L41/40;H04L41/0895;H04L41/083;H04L41/0823;H04L41/08;H04L41/0894;H04L41/0896;H04L41/14;H04L41/147;H04L41/16;G06N3/045;G06N3/0464;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.17#实质审查的生效;2024.04.30#公开

摘要:本发明提供一种基于强化学习的服务功能链并行化部署方法及系统,方法包括:(1)对物理网络进行建模;(2)对SFC请求建模;(3)对部署过程建模;(4)MDP建模;(5)动态副本生成;(6)进行动态预测;(7)提取物理网络的关系特征,并输入Actor网络和Critic网络进行特征学习,获得发生概率最大的策略动作作用于网络环境。本发明通过引入动态副本和动态预测技术,将当前请求对于之前请求的结果依赖解耦为对之前请求处理结果的预测的依赖,实现了多个请求可以并行化的处理,并不丢失请求之间可能存在的依赖关系,使多个请求均匀部署到整个网络中,避免集中部署在个别节点导致的网络不可用。

主权项:1.一种基于强化学习的服务功能链并行化部署方法,其特征在于,包括:1对物理网络进行建模;将物理网络表示为无向带权图G=V,E,其中,V是可部署VNF并进行流量转发的物理服务器集合,E是连接这些服务器的物理链路集合;u,v∈V代表两个物理服务器,uv∈E代表连接这两个服务器的物理链路;每个物理服务器u,有CPU最大容量和内存最大容量两种可分配的资源;2对SFC请求建模;用F表示VNF类型的集合,将SFC请求用四元组表示为Ri={Si,Di,Fi,Ψi},其中,Si,Di分别表示请求i的源节点和目标节点,Fi∈F表示请求i需要的VNF的集合,Ψi是请求i能够接受的最大时延;表示为了满足时延要求需要为请求分配的最小带宽;有向带权图Gi=Vi,Ei表示一个SFC请求,其中,Vi={Si∪Di∪Fi},表示节点和之间的虚拟链路;每种f∈Fi有不同的资源需求,用分别表示节点对应的VNFfi需要的CPU和内存数;3对部署过程建模;将部署过程视为一种映射关系,即Gi=Vi,Ei→G=V,E;将映射过程定义为一系列搜索和选择操作的集合,其中,是将节点χkχ1=S作为起点为fk选择候选的服务器节点集合,Ak表示从从候选集合中选择一个服务器,Pk确定将上一步选择的服务器作为部署节点χk+1=Ak;k=k+1还是转发节点χk=Ak,S表示源节点,D表示目的节点;4MDP建模;将服务功能链并行化部署问题建模为一个MDP五元组S,A,R,P,γ;其中,状态S是环境的观测值,包括的属性有网络中各节点的资源分布情况、链路带宽的分布情况;动作空间A是代理可以采取的行为,包括网络中的所有节点;奖励R是在状态转移和行动之后代理收到的奖励信号,部署成功返回正奖励,部署失败返回负奖励;转移概率P描述了在某一状态下,采取某一动作后会转移到哪些状态;折扣因子γ用于平衡当前奖励和未来奖励的重要性;5动态副本生成;每次请求到达时按照当前网络的状态生成一个状态副本,在后续对该请求的处理和状态转移都是基于该副本进行操作,当请求处理完成后将处理这次请求需要的资源数量同步到源网络;其中,同步到源网络过程和生成状态副本采用并发控制;6进行动态预测;若两个请求R1和R2在同一个极小时间窗口δ内依次到达,在处理R2请求时将R1请求也作为底层网络状态的一部分,使R2能够感知并预测到R1请求的处理结果;7提取物理网络的关系特征,并输入Actor网络和Critic网络进行特征学习,获得发生概率最大的策略动作作用于网络环境;采用卷积神经网络GCN对物理网络进行特征提取,以得到每个节点之间更深层次的关系特征;在每个step,将当前的网络状态送入GCN,得到特征矩阵其中,lgcn是GCN提取的特征向量的维度;GCN提取特征的过程为:其中,是一个可训练的参数矩阵,是GCN通过卷积提取特征的过程,通过增加一个单位矩阵Λ实现自连接;对于网络状态通过GCN进行特征提取,得到特征矩阵;通过GCN提取物理网络G和时间窗口δ内多个SFC请求Rδ的特征,得到特征矩阵和将两个特征矩阵和分别进行拼接操作得到两个特征向量,最后将三个向量进行组合得到整体状态Si的特征向量完成特征的提取和转换之后,将特征向量分别送入Actor网络和Critic网络;在Actor网络中,首先经过两个全连接层进一步对特征进行提取,并将结果转换为同动作空间相同的维度,随后经过Mask层屏蔽掉无效动作,最后通过softmax层将结果转换为0,1之间的概率分布,通过对该分布进行抽样得到动作at,并计算出该动作的logprob值,最后得到策略π=st,at;在Critic网络中,特征向量经过两个全连接层,最后转变成单个Q-value。

全文数据:

权利要求:

百度查询: 嵩山实验室 基于强化学习的服务功能链并行化部署方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。