买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于SVM算法的数据库系统异常分类预测方法_南京开特信息科技有限公司_202210235059.3 

申请/专利权人:南京开特信息科技有限公司

申请日:2022-03-10

公开(公告)日:2024-04-16

公开(公告)号:CN114637620B

主分类号:G06F11/07

分类号:G06F11/07;G06F18/2411;G06F18/2135

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.07.05#实质审查的生效;2022.06.17#公开

摘要:本发明公开了一种基于SVM算法的数据库系统异常分类预测方法,核心思想是针对同一个训练集训练不同的分类器弱分类器,然后把这些弱分类器集合起来,构成一个更强的最终分类器强分类器,本发明同时解决了系统监测技术领域常见的数据分布不平衡以及预测模型更新等问题,提高了系统监测的预测准确性。另外,本发明通过引入动态样本权重构建方法,使得本发明可以对目标系统进行动态预警,减少人为干预的随机性。最后,本发明的流程相对简单,运行成本较低。

主权项:1.一种基于SVM算法的数据库系统异常分类预测方法,其特征在于,包括以下步骤:步骤一,爬取目标系统的工作日志:构造时间长度为T,包含多个指标的样本集{xi,yi,i=1LT},i为用时间点标识的样本序号,x为监测到的指标,yi为目标系统是否异常,根据时间点对指标x进行标识,目标系统异常则yi标注为1,非异常则标注为0,形成数据集;步骤二,处理数据集:对监测的指标进行标准化处理;步骤三,对标准化处理后的数据集进行降维处理;使用主成分分析方法,对监测指标体系进行降维处理,以主元贡献率达到90%以上为准则,由主成分算法系统自动确定主成分数量;主成分为筛选后的指标x,获得总体数据集;步骤四,构建支持向量机目标函数,即模型: 式1中,γ为法向量,来自于支持向量机方法中的最优超平面等式γTx+b=0,等式中b为位移项,x为监测到的指标;δi和δj代表松弛变量,n1和n2分别代表目标系统异常的样本数量和目标系统正常的样本数量;C为错误分类的惩罚因子,为模型的定值;C+代表目标系统异常被错误分类为目标系统正常的错误分类代价,C-代表目标系统正常被错误分类为目标系统异常的错误分类代价,C+=n212,C-=n122;步骤五,构建样本权重更新公式:设定时间权重惩罚力度以及时间权重参数,具体步骤如下:a,设定模型的循环次数为M;b,在总体数据集上选择模型的训练集,选择方法是在样本中随机选择90%的样本为训练样本,10%的样本为测试样本;c,初始化每个训练样本的权重:设定所有时间点样本的初始权重相同,第一次训练循环中,所有样本的初始权重是相同的,也即: 式2中,为样本的权重;d,开始第1次训练循环:根据步骤四中的模型,基于选出的训练集样本进行模型训练,生成该次训练的预测模型也即基分类器或弱分类器;e,第m次训练循环时,样本权重根据分类器权重计算结果对样本的权重进行更新循环,样本权重的更新公式为: 式3中,其定义为时间权重的惩罚方向;其定义为第m个基分类器的权重,em表示第m次循环时的分类错误率,也即模型预测结果的错误率;λ为控制时间权重的惩罚力度,取值在[0,1]之间,其值越大,代表时间权重的惩罚力度越大;ti为时间权重,样本越旧,ti越小,ti=i,i为以时间点标识的样本序号;1<m<M;f,计算第1次训练的分类错误率em,也即模型预测结果的错误率,如果错误分类率em大于f,f取值在0.3-0.6之间,则回到步骤d重新训练;g,如果错误分类率em小于f,计算基分类器权重,并根据式3对样本的权重进行更新;h,按照步骤d~g进行第2次到第M次循环;步骤六,M次循环后,生成最终的输出结果为: 式4中,Sign为符号函数,最终输出结果为1或0;Γx是一个强分类器,也即最终的预测模型;其中fmx为第m次循环得出的基分类器,由支持向量机算法自动生成,是一个弱分类器,预测分类结果较差;步骤七,模型测试:选取训练集之外的10%测试样本作为测试集进行模型测试。

全文数据:

权利要求:

百度查询: 南京开特信息科技有限公司 一种基于SVM算法的数据库系统异常分类预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术