买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于QMIX的分布式网内拥塞控制方法_北京邮电大学_202110370309.X 

申请/专利权人:北京邮电大学

申请日:2021-04-07

公开(公告)日:2024-01-05

公开(公告)号:CN113315715B

主分类号:H04L47/12

分类号:H04L47/12

优先权:

专利状态码:有效-授权

法律状态:2024.01.05#授权;2021.10.26#实质审查的生效;2021.08.27#公开

摘要:本发明涉及一种基于QMIX的分布式网内拥塞控制方法,本发明通过直接将相关方法部署在网内的三层交换机中,进行数据包的调度与拥塞控制来克服上述传统技术的缺点,同时进一步提升了拥塞控制效果。本发明受到近年来,多智能体系统控制领域中的分布式强化学习方法的启发,采用多智能体强化学习方法中的集中式训练,分布式执行的算法框架,将QMIX算法直接在交换机内部实现,在快速响应毫秒级流量波动的同时,又做到了各交换机之间的协调控制,从而达到稳定的全局最优系统状态,进行网络拥塞控制。利用日趋成熟的多智能体深度强化学习方法来解决传统网络拥塞问题。

主权项:1.基于QMIX的分布式网内拥塞控制方法,其特征在于,包括:一、系统模型的构建,采用三层交换机作为基本组件进行建模;每个交换机rt都有一组输入端口和一组输出端口因此每个输入端口和输出端口都唯一对应一个源-目的对路径i,规定每个交换机都有且只有两个输出端口;在此基础上,每个输入端口都对应着到达速率,记为每个输出端口都对应着服务速率,记为同时规定每个交换机都有一个“去尾”队列,其容量为认为所有交换机缓冲队列的最大容量均为设交换机缓存队列当前容量与最大容量的比值为二、优化目标的公式化表述,优化目标包括两方面:1减少所有交换机的全部输入端口的到达速率随时间变化而产生的均方差;2减小平均队列长度的均方差;三、多智能体深度强化学习算法的设计,采用QMIX算法进行网内拥塞控制;采用一个混合网络对单智能体局部值函数进行合并,使其整体的联合动作值函数与各个智能体的局部动作值函数单调性相同,因此对各个智能体局部值函数取最大,也能使联合动作值函数最大,主要体现在对联合动作值函数取argmax得到的联合动作,等价于对每个局部动作值函数取argmax得到的各智能体动作集合,其公式如下: 其中,τall表示各智能体集合,aall表示各动作体集合;而每个智能体的分布式策略,就是基于贪心思想选取局部Q值最大对应的动作,QMIX算法将其转化为一种单调性约束,其公式表述如下: 四、算法与系统模型的交互,所述系统模型对每个智能体的状态空间定义如下: 对每个智能体的状态动作空间定义如下: 对当前交换机rt而言,代表经过第一个输出端口向下游相邻交换机发送的数据包数量,而代表经过其第二个输出端口向下游相邻交换机发送的数据包数量;而分别代表其第一、二个输出端口的服务周期,即服务速率的倒数,此处采用服务周期;首先,环境根据当前系统状态St,为智能体提供联合状态智能体获取各自的状态基于各自的决策函数选择动作形成联合动作上述动作会影响环境,产生新的系统状态St+1以及新的联合观测状态同时还会在python端生成单步联合奖励值元组形成一条经验,存储在经验库中;最后,集中式的训练中心对离线经验库进行批量为b的随机采样,通过全局Q值,根据下列更新公式进行神经网络参数更新:QMIX算法的参数的更新公式如下: 训练过程中b是离线经验库的批量采样大小,其具体误差函数为:

全文数据:

权利要求:

百度查询: 北京邮电大学 基于QMIX的分布式网内拥塞控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。