买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于计算似然比的分布外网络流量数据检测方法_哈尔滨工业大学_202210450541.9 

申请/专利权人:哈尔滨工业大学

申请日:2022-04-26

公开(公告)日:2024-04-02

公开(公告)号:CN114844840B

主分类号:H04L47/2441

分类号:H04L47/2441;G06N3/0442;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2022.08.19#实质审查的生效;2022.08.02#公开

摘要:一种基于计算似然比的分布外网络流量数据检测方法,属于网络流量数据检测领域。为提高网络流量数据识别的精准度和置信度的问题。本发明提取网络流量特征:原始流量为pcap包,根据五元组划分为不同的数据流,设置为提取数据包长度序列、计算包到达时间间隔序列,将以上序列保存并生成CSV文件,作为模型训练的原始训练数据;使用原始训练数据训练原始分类模型,采用深度学习算法长短期记忆网络进行原始分类模型的训练,得到原始训练数据训练出的模型,生成扰动数据,采用加入高斯白噪声的方法生成扰动数据,训练扰动模型,得到扰动数据训练出的模型,计算似然比,判断分布外数据。本发明网络流量数据识别的精准度和置信度高。

主权项:1.一种基于计算似然比的分布外网络流量数据检测方法,其特征在于:包括如下步骤:S1、提取网络流量特征:原始流量为pcap包,根据五元组划分为不同的数据流,设置为提取数据包长度序列、计算包到达时间间隔序列,将以上序列保存并生成CSV文件,作为模型训练的原始训练数据;S2、使用步骤S1的原始训练数据训练原始分类模型,采用深度学习算法长短期记忆网络进行原始分类模型的训练,得到原始训练数据训练出的模型为A·;S3、生成扰动数据,对步骤S1的原始训练数据采用加入高斯白噪声的方法生成扰动数据;S4、训练扰动模型,使用步骤S3的扰动数据采用深度学习算法LSTM训练扰动模型,得到扰动数据训练出的模型为B·;S5、计算似然比,判断分布外数据;步骤S5中判断分布外数据的方法为:S5.5、设定阈值;S5.6、对设定的阈值和似然比LRx进行比较,当计算得到的似然比LRx≥阈值,样本x为分布内数据,当计算得到的似然比LRx阈值,样本x为分布外数据;S5.5步骤中阈值设定方法为:阈值的设定以三组实验结果取得,通过测定相似网络流量的相对距离设置合理的阈值:1第一组实验采用邮箱流量数据:分别收集QQ邮箱、163电子邮箱、谷歌电子邮箱、新浪邮箱四种不同邮箱类型流量并以这些网络流量数据等分为10份,其中随机选取9份作为训练数据,1份作为测试数据:模型训练采用决策树算法,于是定义相似网络流量的相对距离为:将测试数据中样本x输入分类模型中,将分类的结果表示为:样本x被分类为QQ邮箱、163电子邮箱、谷歌电子邮箱和新浪邮箱的概率分别为Pqqx,P163x,PGox,Psinax,则定义样本x的相对距离dx计算公式为: 最后将测试数据中所有样本x的相对距离取平均数得到阈值的参考值threshold: 2第二组实验采用视频流量数据,分别收集TikTok、Netflix、Facebook、B站四个视频平台流量数据并将其划分为10等份,其中随机选取9份作为训练数据,1份作为测试数据,模型训练采用决策树算法,将测试数据输入模型中,并将分类结果代入到公式a,b中得到阈值参考值;3第三组实验采用数据库流量数据,分别收集Oracle、SQLServer、DB2、MySQL四个常见数据库流量数据并将其划分为10等份,其中随机选取9份作为训练数据,1份作为测试数据,模型训练采用决策树算法,将测试数据输入模型中,并将分类结果代入到公式a,b中得到阈值参考值。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 一种基于计算似然比的分布外网络流量数据检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。