买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】区分匿名Tor应用流量的MFD色谱特征提取方法及系统_江苏大学_202210120936.2 

申请/专利权人:江苏大学

申请日:2022-02-09

公开(公告)日:2024-04-16

公开(公告)号:CN114500396B

主分类号:H04L47/2441

分类号:H04L47/2441;G06F18/23

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.05.31#实质审查的生效;2022.05.13#公开

摘要:本发明一种区分匿名Tor应用流量的MFD色谱特征提取方法及系统,本发明发现匿名Tor流量的MFD色谱特征,并将MFD色谱特征用于识别不同匿名Tor流量来源的应用终端程序,对匿名Tor流量提取出MFD特征。MFD特征包含匿名流量数据包的大小、分布、不同类型包的频率分布以及不同包的发送方向等流量特征,是流量特征对应于网格图到RGB颜色空间的可视化方法特征,该特征可使用谱聚类算法进行聚类,在识别匿名应用的终端程序上体现了良好的簇内聚类和簇间分离的特点,直观展现出匿名Tor流量在不同终端程序应用中的差异,相对于原始特征无法有效区分不同匿名Tor应用,具有识别率高、可解释性强的特点。

主权项:1.一种区分匿名Tor应用流量的MFD色谱特征提取方法,其特征在于:包括以下步骤:步骤1、采集Tor网络下目标应用产生的网络流量形成目标流量集,使用固定步长的滑动时间窗口将目标流量集拆分为多条流,对于每一条流均采用双阈值预处理策略来去除非活跃流和噪声,进而提取出每条流I的数据包大小序列S和数据包方向序列D;步骤2、将步骤1所得数据包大小序列和方向序列按照数据包大小进行分组,根据滑动时间窗口的窗口长度和窗口内发送的数据包总个数计算不同大小数据包的个数占比分布M_size、频率分布F_size以及方向分布D_size;创建数据包大小-个数映射Mapsn以及数据包大小-平均方向映射Mapsd,遍历步骤1提取出的数据包大小序列S与数据包方向序列D,若Mapsn和Mapsd中存在大小为si的键,则将Mapsn中键si的值加1,同时根据数据包方向是发送还是接收来判断是将Mapsd中键si的值保持不变还是加1;若Mapsn和Mapsd中均不存在键si,则都初始化值为0,即: 其中,si表示数据包大小序列S=[s1,s2,…sN-1,sN]中的第i项,即流I中第i个数据包pi的数据包大小;接着根据窗口内发送的数据包总个数N,窗口大小T以及Mapsn、Mapsd映射计算不同大小数据包的个数占比分布频率分布以及方向分布步骤3、将步骤2所得三种分布融合为MFD特征,并使用谱聚类算法对MFD特征进行聚类,同时根据单个簇内不同类型MFD特征分布和同类型MFD特征在各个簇中分布情况选取最优簇数量;对于每个簇,随机删除其他类型MFD特征并保留簇中类型占比最大的MFD特征在一定比例以上;首先串行合并M_size、F_size、D_size为MFD特征,使用MFD特征作为节点,MFD特征之间相似度作为带权无向边,构造邻接矩阵E以及拉普拉斯矩阵L=G-E,并对L进行归一化得到其中相似度计算公式为高斯核函数MFDa和MFDb为两条流的1行u列MFD特征向量,σ为带宽,控制Sim局部作用范围,G为度矩阵,G中对角线元素的值为矩阵E中对应行元素的和;接着计算Lnor的前f个最小的特征值对应的特征向量F={F1,F2,..,Ff},遍历簇数从2到Kmax,使用K-means算法对F进行聚类,得到概率矩阵BQ×K,其中Q和K分别代表样本和簇个数,bq,k为第q个样本属于第k个簇的概率,根据单个簇内不同类型MFD特征分布和同类型MFD特征在各个簇中分布情况选取最优簇数量,即最大化公式: 其中ωq代表样本q所属类型样本在训练集中所占的比重,maxbq,k为矩阵B第q行的最大值,即样本q属于某一簇的最大概率;最后随机删除每个簇中其他类型MFD特征,保留类型占比最大的MFD特征在一定比例以上步骤4、采用基于网格图的可视化方法将经步骤3处理后的MFD特征映射到RGB颜色空间中,再经图像压缩和格式转换后保存为MFD色谱特征,直观展现出匿名应用Tor流量的差异化模式并用于后续分类;对步骤3所得每个时间窗口内提取的三种分布M_size、F_size和D_size,首先,使用稳健标准化方法对原始分布进行线性变换,并使结果落到[0,255]区间,即: 其中M_sizeh、F_sizeh、D_sizeh代表三种分布中的第h个值,median代表分布的中位值,IQR代表分布的第1个四分位数和第3个四分位数之间的范围;然后,创建数据包大小-颜色字典SC_dic={sc1,sc2,…scM-1,scM},SC_dic存储数据包大小与颜色的映射,字典的大小与分布相同;接着,创建一个包含1500个网格的方形图片,按照从左到右,从上到下的顺序依次对每个网格进行编号,编号j与数据包大小为一一对应关系,且j∈[1,1500],接着遍历步骤SC_dic,若SC_dic中存在键j,则使用SC_dicj中存储的颜色代码为对应编号的网格着色,若SC_dic中不存在键j,则使用平缓着色方案,从默认颜色数组中提取j对应位置的颜色对网格进行着色,即SC_dicj=hexcrest[ceilj1499*255]*255,直至所有网格着色完毕;其中crest数组中包含256种不同深度颜色的RGB数值,ceil代表向上取整;最后,根据设备存储空间剩余情况调整图片到合适大小并保存为匿名应用Tor流量的MFD色谱特征。

全文数据:

权利要求:

百度查询: 江苏大学 区分匿名Tor应用流量的MFD色谱特征提取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。