买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于D-N的工业互联网入侵检测数据集处理方法_吉林大学_202111202373.3 

申请/专利权人:吉林大学

申请日:2021-10-15

公开(公告)日:2024-04-19

公开(公告)号:CN113934719B

主分类号:G06F16/215

分类号:G06F16/215;G06F16/2458;G06F16/28;G06N20/20

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2022.02.01#实质审查的生效;2022.01.14#公开

摘要:本发明公开了一种基于D‑N的工业互联网入侵检测数据集处理方法,该算法改进了现有集成学习类算法解决工业互联网入侵检测问题时,数据集中的冗余数据项导致训练出的集成学习模型泛化性能差、数据集中某些类型的数据标签不能被集成学习的个体学习器识别、数据集中某些类型的数据标签被集成学习的个体学习器错误识别导致训练出的集成学习模型检测精度低的上述问题,为使用集成学习类算法解决工业互联网入侵检测问题时,训练数据集、验证数据集的处理提供了新的方法。

主权项:1.基于D-N的工业互联网入侵检测数据集处理方法,其特征在于:基于D-N的工业互联网入侵检测数据集处理算法可以有效地分析工业互联网入侵检测数据集的数据类型,对工业互联网入侵检测数据集中的数据进行数据清洗,进行离散化和归一化处理,步骤如下:(1)输入需要处理的数据集D,遍历数据集D的全部数据标签;(2)根据对数据集D数据标签的遍历结果,建立表头与数据集D数据标签顺序、名称完全一致的空表E,即数据清洗池;(3)在数据清洗池E的每个数据标签下分别输入需要处理的数据标签的取值;;,以及每项的处理方式M,更新数据清洗池为;(4)以先逐行再逐列的顺序遍历数据集D,对比数据清洗池,对需要处理的数据标签以处理方式M进行处理,得到遍历处理后的数据集;(5)以先逐列再逐行的顺序遍历数据集,若数据标签的数据类型为数值型,则跳过该步骤;若数据标签的数据类型为非数值型,统计该数据标签的取值类型数量m,对该数据标签的m个取值类型进行简单编码:1、2、…、m,得到数值化的数据标签取值;(6)根据步骤(5)中得到的数值化的数据标签取值,计算每个进行数值化处理数据标签的数值化取值的算数平均值AVG,其中;(7)根据步骤(5)中得到的数值化的数据标签取值及步骤(6)中得到的算数平均值AVG,计算每个进行数值化处理数据标签的数值化取值的平均绝对偏差STAD,其中;(8)根据步骤(5)、(6)、(7)中分别得到的、AVG、STAD,计算步骤(5)-(7)处理后最终的数值离散化后的数据标签取值,其中,若或=0,离散化后的,得到遍历处理后的数据集;(9)遍历每个数据标签的取值,得到离散化后的数据标签取值最大值和数据标签取值最小值;(10)根据步骤(9)中得到的、,计算数值归一化后的数据标签取值,其中;(11)在对数据集所有列的数据完成步骤(5)-(10)的处理后,将所有处理后的数据按照数据集D的数据格式存储到新的数据集中。

全文数据:

权利要求:

百度查询: 吉林大学 基于D-N的工业互联网入侵检测数据集处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。