买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统_北京工业大学_202111669208.9 

申请/专利权人:北京工业大学

申请日:2021-12-31

公开(公告)日:2024-03-29

公开(公告)号:CN114358177B

主分类号:G06F18/23213

分类号:G06F18/23213;G06F18/21;G06F18/241;H04L9/40

优先权:

专利状态码:有效-授权

法律状态:2024.03.29#授权;2022.05.03#实质审查的生效;2022.04.15#公开

摘要:本发明公开了一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统。包括模型构建阶段、分类阶段及更新阶段。其中模型构建阶段包含用于构建流特征提取模型的模型构建阶段1以及用于构建流分离模型的构建的模型构建阶段2。基于流分离模型,划分已知流量类与未知流量类边界。对于判定为已知类的流输出其对应的预测标签,并存储为已知类流量样本;对于判定为未知类的流,对其进行标记并存储为未知类流量样本。基于新类别样本数据与已知类样本数据组成新流量样本数据集,重复模型构建阶段操作进行模型更新。通过模型构建阶段、分类阶段和更新阶段,有效应对未知加密流量问题,在保证了分类精确度的同时使系统具有良好的可扩展性。

主权项:1.一种基于多维度特征紧凑决策边界的未知网络流量分类方法,其特征在于,包括模型构建阶段、分类阶段及更新阶段;其中模型构建阶段包含用于构建流特征提取模型的模型构建阶段1以及用于构建流分离模型的构建的模型构建阶段2,具体过程如下:所述模型构建阶段1包括报文负载特征提取过程以及报文长度序列特征提取过程两个子过程:1报文负载特征提取过程包括如下步骤:1-1以已标记的原始IP数据报文作为输入,按照五元组标识将其组装为TCPUDP单向流集合;1-2以步骤1-1得到的TCPUDP单向流集合作为输入,对TCPUDP单向流集合进行报文负载数据预处理操作,提取每条流的前几个非空负载数据包中的固定数量的字节负载数据,通过截取或填充的方式使报文负载长度一致,形成定长报文负载集合;1-3以步骤1-2形成的定长报文负载集合作为输入,首先采用独热编码将定长报文负载序列转化为定长的独热表征报文负载向量;然后,采用有监督学习的方式,提取报文负载特征;2报文长度序列特征提取过程包括如下步骤:2-1以步骤1-1得到的TCPUDP单向流集合作为输入,进行报文长度序列数据预处理操作;提取每条流的前几个非空负载数据包的有效负载长度;通过截取或填充的方式使报文长度序列长度一致,形成定长报文长度序列集合;2-2以步骤2-1形成的定长报文长度序列集合作为输入,首先采用独热编码将定长报文长度序列转化为定长的独热表征长度序列向量;然后,采用有监督学习的方式,提取报文长度序列特征;3将步骤1-3得到的报文负载特征与步骤2-2得到的报文长度序列特征进行特征融合和增强,从而构建具有较高泛化能力与鲁棒性的多维度的流特征提取模型;所述模型构建阶段2包括如下步骤:4以流特征提取模型输出的已标记的流特征及对应标签作为输入,按照划分比例系数设置为α,划分训练数据子集;5根据步骤4得到的训练数据子集,采用有监督学习的方式,基于融合多颗决策树构建能够有效划分已知、未知流量的流分离模型;所述分类阶段包括如下步骤:6以未标记的混杂流原始IP数据包作为输入,进行与模型构建阶段1中步骤1-1相同的方法,将其组装为TCPUDP单向流集合;7以步骤6得到的TCPUDP单向流集合为输入,与模型构建阶段1中步骤1-2及步骤2-1相同,对流进行数据预处理,得到满足流特征提取模型的报文负载集以及报文长度序列集;8根据模型构建阶段1中步骤3得到的流特征提取模型,对待分类的流进行特征提取,得到混杂流的报文负载特征与报文长度序列特征;9以步骤8中得到的混杂流的报文负载特征与报文长度序列特征为输入,根据步骤5得到的流分离模型,划分已知流量类与未知流量类边界;对于判定为已知类的流输出其对应的预测标签,并存储为已知类流量样本;对于判定为未知类的流,对其进行标记并存储为未知类流量样本;所述模型更新阶段包括如下步骤:10以步骤9得到的未知类流量样本为输入,进行基于BIC的K-means聚类,将输出的聚类结果与未知类流量样本的原始数据拼接,并存储为新类别流量样本数据;11将步骤10得到的新类别样本数据与步骤9得到已知类样本数据组成新流量样本数据集,更新流特征提取模型与流分离模型中流类别数,并采用同模型构建阶段1与模型构建阶段2中相同操作进行模型更新操作,以有效应对新未知流量的分类问题。

全文数据:

权利要求:

百度查询: 北京工业大学 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。