买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于zabbix性能基线的异常检测和告警方法_上海新炬网络技术有限公司_201910293816.0 

申请/专利权人:上海新炬网络技术有限公司

申请日:2019-04-12

公开(公告)日:2024-01-23

公开(公告)号:CN110287078B

主分类号:G06F11/30

分类号:G06F11/30;G06F11/34;G06F18/23213

优先权:

专利状态码:有效-授权

法律状态:2024.01.23#授权;2019.10.29#实质审查的生效;2019.09.27#公开

摘要:本发明公开了一种基于zabbix性能基线的异常检测和告警方法,包括如下步骤:S1:通过监控系统获取历史数据作为样本数据;S2:去除与整体数据偏差超过预设临界值的异常数据;S3:以监控周期为单位,获取监控周期内的数据平均值或者中间值作为基线;S4:通过均线漂移运算对基线进行校正得到校正后的基线;S5:将监控值与校正后的基线值进行对比,通过对比差值触发不同的告警类型。本发明在传统基线算法的基础上去除异常数据,进行基线校正,然后配置合理的基线冗余范围,提供了更加准确的动态基线告警,使得不同业务系统、不同资源类型甚至不同业务部门有了通用的动态基线告警方法,在生产环境中能够更准确、快速地定位业务故障。

主权项:1.一种基于zabbix性能基线的异常检测和告警方法,其特征在于,包括如下步骤:S1:通过监控系统获取历史数据作为样本数据;S2:去除与整体数据偏差超过预设临界值的异常数据;S3:以监控周期为单位,获取监控周期内的数据平均值或者中间值作为基线;S4:通过均线漂移运算对基线进行校正得到校正后的基线;S5:将监控值与校正后的基线值进行对比,通过对比差值触发不同的告警类型;所述步骤S2具体包括:S21:计算样本数据的均值和标准差;S22:计算样本数据与均值的差值,将差值最大的数据设为可疑值;S23:计算可疑值的标准分数,如果大于预设临界值,该可疑值即为异常数据;所述预设临界值由检出水平α和样本数据的数量n计算得到;S24:从样本数据中去除异常数据;S25:重复步骤S22-S24,直到去除全部异常数据;在步骤S3中以各监控周期内数据的最大值作为基线的上限,最小值作为基线的下限,并对基线的上限和下限设置冗余范围;所述步骤S4具体包括:S41:在未被归类处理的数据点中随机选择一个点作为中心点;S42:找出离中心点在设定带宽之内的所有点,记做集合M;S43:计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;S44:中心点沿着偏移向量的方向移动,移动距离是偏移向量的模;S45:重复步骤S42-S44直到偏移向量小于设定的偏移阈值;S46:重复步骤S41-S45直到所有的数据点都被归类;S47:获取每个类的所有数据点的访问频率,取访问频率最大的数据点组成校正后的基线;所述S5具体包括:将对应时间点的监控值与基线值进行对比,对比差值小于安全阈值,则触发正常状态;对比差值大于安全阈值,同时监控值在基线的上限和下限范围内,则触发初级告警;对比差值大于安全阈值,同时监控值在基线的上限和下限范围外,且监控值与基线的上限和下限的差值在冗余范围内,则触发二级告警;对比差值大于安全阈值,同时监控值在基线的上限和下限范围外,且监控值与基线的上限和下限的差值在冗余范围外,则触发紧急告警。

全文数据:基于zabbix性能基线的异常检测和告警方法技术领域本发明涉及一种监控方法,尤其涉及一种基于zabbix性能基线的异常检测和告警方法。背景技术随着信息化的不断发展和深入,信息技术InformationTechnology,IT系统功能日益强大,涉及的信息种类也日益增多,这导致现有IT系统也逐渐复杂。为及时发现IT系统故障、识别潜在风险及安全隐患,企业内部通常设定专门的运维部门和运维人员监管企业的IT系统,维护企业IT系统正常、稳定运行,保障企业业务正常开展和运营。同时,为了提高发现系统故障的及时性、系统维护的专业性,企业还会建立IT监控系统实现监控手段平台化、自动化。现有的IT系统监控方法通常为:信息技术部门提出系统运行目标,运维部门将系统运行目标转化为系统监控指标,并在IT监控系统中通过定义监控指标、设定监控数据源、配置监控校验规则、部署监控调度作业实现系统监控,其中监控校验规则配置采用最小值、最大值的值域配置或采用百分比的波动配置等方式。当系统的某个部件运行状况超出预设阈值时,监控系统识别告警并发送相关的告警通知。这种告警识别机制通常不分系统运行时段,或者只能设置某几个特定时段内的系统监控。上述IT监控系统的监控方法,存在以下问题:第一:监控阈值单一、监控时段粗放,告警误报多、处理成本高:同一个监控指标通常只设置一个监控阈值、且监控阈值在所有时段都有效,如果监控阈值设置过低会导致正常业务高峰期时段频繁触发系统告警、增加运维人员对异常告警识别复杂度和告警处理成本。第二:系统性能波动趋势识别低,系统性能风险预警能力不足:如果监控阈值设置过高则不能及时获知非业务高峰期时段系统性能的异常波动、无法准确及时识别和预警系统中存在的潜在问题。IT系统的性能峰谷随着企业业务发展会呈现一定的变化,现有的监控方法缺少一种系统峰谷波动的趋势跟踪。发明内容本发明要解决的技术问题是提供一种基于zabbix性能基线的异常检测和告警方法,解决当前检测和告警结果不够准确的问题。本发明为解决上述技术问题而采用的技术方案是提供一种基于zabbix性能基线的异常检测和告警方法,包括如下步骤:S1:通过监控系统获取历史数据作为样本数据;S2:去除与整体数据偏差超过预设临界值的异常数据;S3:以监控周期为单位,获取监控周期内的数据平均值或者中间值作为基线;S4:通过均线漂移运算对基线进行校正得到校正后的基线;S5:将监控值与校正后基线值进行对比,通过对比差值触发不同的告警类型。进一步的,所述样本数据包括性能数据以及与性能数据相对应的时间数据。进一步的,所述步骤S2具体包括:S21:计算样本数据的均值和标准差;S22:计算样本数据与均值的差值,将差值最大的数据设为可疑值;S23:计算可疑值的标准分数,如果大于预设临界值,该可疑值即为异常数据;S24:从样本数据中去除异常数据;S25:重复步骤S22-S24,直到去除全部异常数据。进一步的,所述预设临界值由检出水平α和样本数据的数量n计算得到。进一步的,在步骤S3中以各监控周期内数据的最大值作为基线的上限,最小值作为基线的下限,并对基线的上限和下限设置冗余范围。进一步的,所述步骤S4具体包括:S41:在未被归类处理的数据点中随机选择一个点作为中心点;S42:找出离中心点在设定带宽之内的所有点,记做集合M;S43:计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;S44:中心点沿着偏移向量的方向移动,移动距离是偏移向量的模;S45:重复步骤S42-S44直到偏移向量小于设定的偏移阈值;S46:重复步骤S41-S45直到所有的数据点都被归类;S47:获取每个类的所有数据点的访问频率,取访问频率最大的数据点组成校正后的基线。进一步的,所述S5具体包括,将对应时间点的监控值与基线值进行对比,对比差值小于安全阈值,则触发正常状态;对比差值大于安全阈值,同时监控值在基线的上限和下限范围内,则触发初级告警;对比差值大于安全阈值,同时监控值在基线的上限和下限范围外,且监控值与基线的上限和下限的差值在冗余范围内,则触发二级告警;对比差值大于安全阈值,同时监控值在基线的上限和下限范围外,且监控值与基线的上限和下限的差值在冗余范围外,则触发紧急告警。本发明对比现有技术有如下的有益效果:本发明提供的基于zabbix性能基线的异常检测和告警方法,在传统IT资源监控及传统基线算法的基础上,去除异常数据,通过均值漂移算法进行基线校正,然后配置合理的基线冗余范围,提供了更加准确的动态基线告警,使得不同业务系统、不同资源类型甚至不同业务部门有了通用的动态基线告警方法;企业在生产环境中能够更准确、快速地定位业务故障,解决企业业务运营的实际问题,具有比较贴近现实企业生产运营的价值,提高企业生产效率。附图说明图1为本发明实施例中基于zabbix性能基线的异常检测和告警方法流程图;图2为本发明实施例中异常数据去除前的数据图;图3为本发明实施例中异常数据去除后的数据图;图4为本发明实施例中异常数据去除流程图;图5为本发明实施例中基线校正流程图;图6为本发明实施例中CPU使用率的基线数据图;具体实施方式下面结合附图和实施例对本发明作进一步的描述。图1为本发明实施例中基于zabbix性能基线的异常检测和告警方法流程图。请参见图1,本发明实施例的基于zabbix性能基线的异常检测和告警方法,包括如下步骤:S1:通过监控系统获取历史数据作为样本数据,所述样本数据包括性能数据和性能数据对应的时间数据;S2:去除与整体数据偏差超过设定预设临界值的异常数据;S3:以监控周期为单位,获取监控周期内的数据平均值或者中间值作为基线;S4:通过均线漂移运算对基线进行校正得到校正后的基线;S5:将监控值与基线值进行对比,通过对比差值触发不同的告警类型。根据历史数据去除异常点,最大可能的保持基线范围,去除与整体数据偏差较大的数据,最终取得数据范围上下边界作为基线上限和下限,取监控周期内平均值mean或者中值median作为基线。图2为本发明实施例中异常数据去除前的数据图;图3为本发明实施例中异常数据去除后的数据图。如图2所示,去除异常值前的数据散点图包括上限、平均值和下限,如图3所示,中间的散点数据范围,即为波动的正常范围,可在基线上下限的基础上添加冗余范围,减少告警的误报率。格拉布斯算法Grubbs用于判断“可疑值”,能将“可疑值”从待计算数据中剔除而不参与计算。如图4所示,具体算法实现包括以下几个步骤:1.求样本数据Data的Mean均值和Std.dev标准差;2.计算Data与Mean的差值,差值最大的数据设为可疑值;3.求可疑值的标准分数standardscore,如果大于Grubbs临界值,那就是与整体数据偏差较大的值;4.Grubbs临界值可由检出水平α越严格越大,样本数量n计算得到;5.从Data中排除“可疑值”,对剩余序列循环做上述1~4步骤,直到没有“可疑值”标准分数standardscore是一个数与平均数的差再除以标准差的过程,"一个给定分数距离平均数多少个标准差?"在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。标准分数是一种可以看出某分数在分布中相对位置的方法。均值漂移算法meanshift,常应用于聚类K均值聚类、图像分割、对象轮廓检验、目标追踪;均值漂移的基本概念,是沿着密度上升的方向寻找聚簇点。初始确定一个中心点center,计算在设置的半径为d的圆形空间内的所有点与中心点的向量。计算圆形空间内所有向量的平均值,得到偏移均值,将中心点center移动到偏移均值位置,重复移动直到满足某个条件结束。均线漂移运算用于基线校正,如图5所示,具体包括如下步骤:2.1在未被分类的数据点中随机选择一个点作为中心点;2.2找出离中心点在带宽之内的所有点,记做集合M,认为这些点属于聚簇C;2.3计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;2.4中心点沿着shift的方向移动,移动距离是偏移向量的模;2.5重复步骤2.2-2.4,直到偏移向量的大小满足设定的阈值要求;2.6重复步骤2.1-2.5直到所有的点都被归类;2.7根据每个类对每个点的访问频率,取访问频率最大的那个类作为当前点集的所属类。如图6所示,为根据基线算法、Grubbs算法和均值漂移算法得到的CPU使用率的基线数据图,其中包括上门限、下门限、校正后的基线以及CPU实际使用率曲线。具体的,本发明实施例的基于zabbix性能基线的异常检测和告警方法,步骤S5具体包括,将对应时间点的监控值与基线值进行对比,对比差值小于安全阈值,则触发正常状态;对比差值大于安全阈值,同时监控值在基线的上限和下限范围内,则触发初级告警;对比差值大于安全阈值,同时监控值在基线的上限和下限范围外,且监控值与基线的上限和下限的差值在冗余范围内,则触发二级告警;对比差值大于安全阈值,同时监控值在基线的上限和下限范围外,且监控值与基线的上限和下限的差值在冗余范围外,则触发紧急告警。综上所述,本发明提供的基于zabbix性能基线的异常检测和告警方法,在传统IT资源监控及传统基线算法的基础上,去除异常数据,通过均值漂移算法进行基线校正,然后配置合理的基线冗余范围,提供了更加准确的动态基线告警,使得不同业务系统、不同资源类型甚至不同业务部门有了通用的动态基线告警方法;企业在生产环境中能够更准确、快速地定位业务故障,解决企业业务运营的实际问题,具有比较贴近现实企业生产运营的价值,提高企业生产效率。虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

权利要求:1.一种基于zabbix性能基线的异常检测和告警方法,其特征在于,包括如下步骤:S1:通过监控系统获取历史数据作为样本数据;S2:去除与整体数据偏差超过预设临界值的异常数据;S3:以监控周期为单位,获取监控周期内的数据平均值或者中间值作为基线;S4:通过均线漂移运算对基线进行校正得到校正后的基线;S5:将监控值与校正后的基线值进行对比,通过对比差值触发不同的告警类型。2.如权利要求1所述的基于zabbix性能基线的异常检测和告警方法,其特征在于,所述样本数据包括性能数据以及与性能数据相对应的时间数据。3.如权利要求1所述的基于zabbix性能基线的异常检测和告警方法,其特征在于,所述步骤S2具体包括:S21:计算样本数据的均值和标准差;S22:计算样本数据与均值的差值,将差值最大的数据设为可疑值;S23:计算可疑值的标准分数,如果大于预设临界值,该可疑值即为异常数据;S24:从样本数据中去除异常数据;S25:重复步骤S22-S24,直到去除全部异常数据。4.如权利要求3所述的基于zabbix性能基线的异常检测和告警方法,其特征在于,所述预设临界值由检出水平α和样本数据的数量n计算得到。5.如权利要求1所述的基于zabbix性能基线的异常检测和告警方法,其特征在于,在步骤S3中以各监控周期内数据的最大值作为基线的上限,最小值作为基线的下限,并对基线的上限和下限设置冗余范围。6.如权利要求5所述的基于zabbix性能基线的异常检测和告警方法,其特征在于,所述S5具体包括:将对应时间点的监控值与基线值进行对比,对比差值小于安全阈值,则触发正常状态;对比差值大于安全阈值,同时监控值在基线的上限和下限范围内,则触发初级告警;对比差值大于安全阈值,同时监控值在基线的上限和下限范围外,且监控值与基线的上限和下限的差值在冗余范围内,则触发二级告警;对比差值大于安全阈值,同时监控值在基线的上限和下限范围外,且监控值与基线的上限和下限的差值在冗余范围外,则触发紧急告警。7.如权利要求1所述的基于zabbix性能基线的异常检测和告警方法,其特征在于,所述步骤S4具体包括:S41:在未被归类处理的数据点中随机选择一个点作为中心点;S42:找出离中心点在设定带宽之内的所有点,记做集合M;S43:计算从中心点开始到集合M中每个元素的向量,将这些向量相加,得到偏移向量;S44:中心点沿着偏移向量的方向移动,移动距离是偏移向量的模;S45:重复步骤S42-S44直到偏移向量小于设定的偏移阈值;S46:重复步骤S41-S45直到所有的数据点都被归类;S47:获取每个类的所有数据点的访问频率,取访问频率最大的数据点组成校正后的基线。

百度查询: 上海新炬网络技术有限公司 基于zabbix性能基线的异常检测和告警方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。