您的当前位置:首页告警信息智能降噪的处理方法与设计方案

告警信息智能降噪的处理方法与设计方案

2023-04-09 来源:乌哈旅游
图片简介:

本技术属于运维监控系统技术领域,尤其是一种告警信息智能降噪的处理方法,包括告警数量的压缩和告警关联关系的合并,S1,告警数量的压缩;所述告警数量的压缩是指将告警信息压缩整合后再发送,其通过对历史告警数据量的分析进行告警趋势预测,当告警数量超出阈值范围时进行告警压缩;S2,告警关联关系的合并;所述告警关联关系的合并是指对告警信息作关联规则数据挖掘,并将关联规则在后期整理后写入规则库中。本技术的有益效果是,极大地减轻了运维工程师的监控负担,使得其能有效对告警进行及时有效分析处理,同时,对告警元素的收敛分析处理,能有效确保告警间的关联性信息。

技术要求

1.一种告警信息智能降噪的处理方法,其特征在于,包括以下步骤:

S1,告警数量的压缩;统计接警人上个月的历史告警数据,以小时为单位对当前时段告

警数量进行趋势预测,并得到一个预估值;

S2,若当前告警数量大于预估值,则判断发生大规模告警并将该时段内的告警数量进行

压缩;

S3,告警关联关系的合并;根据步骤S2中得到的压缩后的告警信息,分别采用时序关联

规则挖掘算法Apriori对具有时序关联关系的告警项进行挖掘和合并,或采用策略关联规则挖掘算法将具有相同或相似服务粒度的告警项进行策略关联关系挖掘和合并;

S4,将S3中合并后的全部告警信息合并发送给同一接警人。

2.如权利要求1所述的一种告警信息智能降噪的处理方法,其特征在于,所述告警趋势预

测算法包括以下步骤:

S21,基于大量历史告警数据建立告警量统计学模型得到数据的分布规律;S22,通过求解极大似然估计得到大规模告警阈值;

S23,通过系数补偿进行优化调整,输出按小时计大规模告警阈值的规则文件。3.如权利要求1所述的一种告警信息智能降噪的处理方法,其特征在于,时序关联规则挖

掘算法的输入是基于时序告警数据序列,首先得到带时间窗口的支持度候选集,然后根据该候选集统计支持度计数,接着计算置信度,输出按置信度阈值判断得到的关联规则文件。

4.如权利要求1所述的一种告警信息智能降噪的处理方法,其特征在于,策略关联规则挖

掘算法的输入是就服务粒度告警数据序列,服务粒度由小到大依次为配置窗口、ip、指标

code,即该算法的执行优先级为按配置窗口合并、按ip合并、按指标code合并,最后输出

策略规则文件。

5.如权利要求4所述的一种告警信息智能降噪的处理方法,其特征在于,对告警收敛方案

拟定执行优先级策略,具体执行策略优先级如下:

S51,若由告警趋势预测算法得出当前满足大规模告警条件,则将属于同一接警人名下的

告警信息全部合并成一条发送给该接警人;

S52,若同时有多个关联策略产生告警,则采用时序关联规则挖掘算法进行时序关联规则

合并;

S53,若满足同一服务下多个机器有多个策略产生告警,则采用策略关联规则挖掘算法中

的按配置窗口合并策略进行告警信息合并;

S54,若满足同一机器上多个实例产生告警,则采用策略关联规则挖掘算法中的按 ip合并

策略进行告警信息合并;

S55,若满足同一策略下多个实例产生告警,则采用策略关联规则挖掘算法中的按监控策

略合并策略进行告警信息合并;

S56,若满足同一监控对象上多个策略产生告警,则采用策略关联规则挖掘算法中的按指

标code合并策略进行告警信息合并。

技术说明书

一种告警信息智能降噪的处理方法技术领域

本技术涉及运维监控系统技术领域,尤其涉及一种告警信息智能降噪的处理方法。背景技术

运维监控系统是整个产品生命周期中最重要的一环,它不仅对产品运行的健康状况起着非常重要的作用,同时也是衡量一个产品质量好坏的标准。监控系统可以对服务器、操作系统、中间件、应用进行全面的监测与报警,可以做到事前预警并发现故障,事后提供翔实的数据用于复盘问题。

但是,监控系统有可能在短时间内产生大量告警,这不仅给短信网关造成了巨大压力,还极大地增加了运维工程师的监控负担,导致其可能无法对告警进行及时有效分析处理。此外,对告警元素的直接分析处理,可能导致忽略告警间的关联性信息。因此需要通过收敛方式对告警进行归纳与关联。在运维监控系统中,告警收敛师指对告警信息进行分析、合并和丢弃的过程,并在这个过程中降低告警信息的规模及网络运维的压力。技术内容

本技术的目的是提供一种告警信息智能降噪的处理方法,该方法不仅解决了现有的监控系统有可能在短时间内产生大量告警,给短信网关造成了巨大压力,还极大地增加了运维工程师的监控负担,导致其可能无法对告警进行及时有效分析处理。而且,对告警元素的直接分析处理,可能导致忽略告警间的关联性信息,从而有效解决背景技术中提出的问题。

为实现上述目的,本技术提供以下方案:一种告警信息智能降噪的处理方法,包括以下步骤:

S1,告警数量的压缩;统计接警人上个月的历史告警数据,以小时为单位对当前时段告

警数量进行趋势预测,并得到一个预估值;

S2,若当前告警数量大于预估值,则判断发生大规模告警并将该时段内的告警数量进行

压缩;

S3,告警关联关系的合并;根据步骤S2中得到的压缩后的告警信息,分别采用时序关联

规则挖掘算法Apriori对具有时序关联关系的告警项进行挖掘和合并,或采用策略关联规则挖掘算法将具有相同或相似服务粒度的告警项进行策略关联关系挖掘和合并;

S4,将S3中合并后的全部告警信息合并发送给同一接警人。

优选地,所述告警趋势预测算法包括以下步骤:

S21,基于大量历史告警数据建立告警量统计学模型得到数据的分布规律;S22,通过求解极大似然估计得到大规模告警阈值;

S23,通过系数补偿进行优化调整,输出按小时计大规模告警阈值的规则文件。

优选地,时序关联规则挖掘算法的输入是基于时序告警数据序列,首先得到带时间窗口的支持度候选集,然后根据该候选集统计支持度计数,接着计算置信度,输出按置信度阈值判断得到的关联规则文件。

优选地,策略关联规则挖掘算法的输入是就服务粒度告警数据序列,服务粒度由小到大依次为配置窗口、ip、指标code,即该算法的执行优先级为按配置窗口合并、按ip合并、按指标code合并,最后输出策略规则文件。

更优选地,对告警收敛方案拟定执行优先级策略,具体执行策略优先级如下:

S51,若由告警趋势预测算法得出当前满足大规模告警条件,则将属于同一接警人名下的

告警信息全部合并成一条发送给该接警人;

S52,若同时有多个关联策略产生告警,则采用时序关联规则挖掘算法进行时序关联规则

合并;

S53,若满足同一服务下多个机器有多个策略产生告警,则采用策略关联规则挖掘算法中

的按配置窗口合并策略进行告警信息合并;

S54,若满足同一机器上多个实例产生告警,则采用策略关联规则挖掘算法中的按 ip合并

策略进行告警信息合并;

S55,若满足同一策略下多个实例产生告警,则采用策略关联规则挖掘算法中的按监控策

略合并策略进行告警信息合并;

S56,若满足同一监控对象上多个策略产生告警,则采用策略关联规则挖掘算法中的按指

标code合并策略进行告警信息合并。

本技术中的有益效果为:通过收敛方式对告警进行智能归纳与关联,解决了现有的监控系统有可能在短时间内产生大量告警,给短信网关造成的巨大压力,极大地减轻了运维工程师的监控负担,使得其能有效对告警进行及时有效分析处理。同时,对告警元素的收敛分析处理,能有效确保告警间的关联性信息。附图说明

图1为本技术提出的一种告警信息智能降噪的处理方法的告警收敛算法框架图。具体实施方式

下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。如图1所示,一种告警信息智能降噪的处理方法,包括告警收敛,告警收敛由告警数量的压缩和告警关联关系的合并两部分组成。

告警数量的压缩是指将告警信息压缩整合后在发送,一般通过对历史告警数据量的分析进行告警趋势预测,当告警数量明显超出阈值范围时进行告警压缩,其侧重于解决不同服务器报同一故障的问题,解决方案是先延迟报警,然后讲告警信息压缩整合后在发送,保证每个接受人收到的信息都是精华,告警关联侧重于解决同一故障触发多个告警的问题,解决方案是对告警信息作关联规则数据挖掘,并将规则在后期整理后写入规则库中。

本技术一种告警信息智能降噪的处理方法,首先,采用告警趋势预测算法判断当前是否发生大规模告警,综合运用数学方法进行建模和参数预估,若当前告警数量远大于算法得到的预估值,则判断发生大规模告警并将该时段内的告警项进行压缩,然后,采用时序关联规则挖掘算法Apriori对具有时序关联关系的告警项进行挖掘和合并,最后,采用策略关联规则挖掘算法将具有相同或相似服务粒度的告警项进行策略关联关系挖掘和合并,并将新增的合并策略存策略关联关系库中。

考虑到告警数据是时序数据,所以针对时序数据提出“趋势预测挖掘”、“时序关联规则”及“策略关联”三个方面,将这三种算法按一定优先级排序,联合完成告警收敛任务。告警收敛的核心是告警压缩和告警关联,告警趋势预测算法可实现告警压缩,时序关联规则挖掘算法和策略关联规则挖掘算法可实现告警关联。

“告警趋势预测算法”的输入是每小时统计的告警量,首先基于大量历史告警数据建立告警

量统计学模型得到数据的分布规律,其次通过求解极大似然估计得到大规模告警阈值,然后通过系数补偿进行优化调整,最后输出按小时计大规模告警阈值的规则文件。

“时序关联规则算法”的输入是基于时序告警数据序列,首先得到带时间窗口的支持度候选

集,然后根据该候选集统计支持度计数,接着计算置信度,输出按置信度阈值判断得到的关联规则文件。

“策略关联规则挖掘算法”的输入是就服务粒度告警数据序列,服务粒度由小到大依次为配

置窗口、ip、指标code。因此该算法的执行优先级为按配置窗口合并、按ip合并、按指标

code合并,最后输出策略规则文件。对以上三种告警收敛方案拟定执行优先级策略,从前

到后依次满足对应条件时,根据优先级执行告警信息的合并,以达到告警收敛的目的,具体执行策略优先级如下:

若由“告警趋势预测算法”得出当前满足大规模告警条件,则将属于同一接警人名下的告警信息全部合并成一条发送给该接警人。

若同时有多个关联策略产生告警,则采用“时序关联规则挖掘算法”进行时序关联规则合并。

若满足同一服务下多个机器有多个策略产生告警,则采用“策略关联规则挖掘算法”中的“按配置窗口合并”策略进行告警信息合并。

若满足同一机器上多个实例产生告警,则采用“策略关联规则挖掘算法”中的“按ip合并”策略进行告警信息合并。

若满足同一策略下多个实例产生告警,则采用“策略关联规则挖掘算法”中的“按监控策略合并”策略进行告警信息合并。

若满足同一监控对象上多个策略产生告警,则采用“策略关联规则挖掘算法”中的“按指标

code合并”策略进行告警信息合并。

本技术告警趋势预测算法原理如下:统计接警人上个月的历史告警数据,以小时为单位对当前时段告警量进行趋势预测,当超过预测阈值时,则判断出现大规模告警,进而将该时间段内全部告警信息合并发送给同一接警人。在历史告警数据总体分布类型已知时,极大似然估计则是最优的点估计方法,因此本节采用点估计中的极大似然估计实现对告警趋势的预估。告警预测趋势分析流程包括利用分位点对数据去噪,用历史数据建立预估模型,根据该模型进行极大似然估计得出预估值。统计学模型

告警趋势预测需对数据进行预处理以排除脏数据,在得到纯净的告警数量数据后再建立预估模型。根据历史数据,以月为单位,将每个人每天同一小时接收到的告警量绘制成直方图和折线图,可初步判断每个人在每天同一小时的接警数量符合正态分布。根据正态分布模型采用极大似然估计方法,可得到每人每天同一小时告警预估数量阈值。极大似然估计

一次试验有若干个可能结果,可表示为:

若用

表示n次试验中Ai发生的频数, 则由伯努利大数定律如式(3)。可见,在式(1)中,概率最大的时间在单位时间内其频率也倾向于最大。

对上述推理方式进行反向逆推:在一次试验中某个事件Ai发生了,就有理由认P(Ai) 是

P(A1),P(A2),...,P(Ak)中的最大者,即Ai是A1,A2,...,Ak中“最有可能发生” 的事件, 这种推

理方式就是所谓的极大似然原理,建立在极大似然原理基础上的估计称为极大似然估计。时序关联规则挖掘算法研究

Apriori 算法是最有影响的挖掘布尔关联规则频繁项集的经典算法,其核心思想是通过候

选集生成和向下封闭检测两个阶段来挖掘频繁项集“频繁项集”也称为“项集”,是一个二项集。基于 Apriori 算法的数据挖掘步骤可分为以下两个步骤:

1)根据支持度找出所有频繁项集,即频度;2)根据置信度产生关联规则,即强度。

算法核心原理及流程

Apriori 算法通过遍历数据库累计每个项的计数,并收集满足最小支持度的项,找出频繁

项集的集合 L1,是一种逐层搜索的迭代方法。Apriori 算法的先验性质可用于压缩搜索空间,从而可提高逐层产生频繁项集的效率。频繁项集两个先验性质如下:先验性质 1 频繁项集的所有非空子集也一定是频繁的;先验性质 2 非频繁项集的超集一定是非频繁的。算法的核心思想是:

发现频繁项集,过程为扫描、计数、比较、产生频繁项集、连接与剪枝、产生候选项集,重复以上步骤直到不能发现更大的频繁项集;

产生关联规则,过程位根据置信度的定义,对于每个频繁项集L,产生L的所有非空子集S, 如果 P(B |A)≥ min _conf, 则输出规则 L→S。策略关联规则挖掘算法研究

策略关联规则挖掘算法和监控业务紧密相关,策略产生的异常告警信息首先会进行过滤,如果没有被过滤,那么在满足合并窗口的条件下才会触发合并策略,合并窗口是告警信息实现合并的时间段, 一旦发现异常,系统将合并后的告警信息发送给接警人。目前可采用的合并策略包括按 ip合并、按code合并、按配置单元合并和按监控策略合并等。

按ip合并策略只适用于ip类型的策略,当一台机器上多个实例触发告警,可将这台机器上所有告警进行合并,以达到告警收敛的目的。若某个策略满足合并窗口的条件,且这个策略所在的host上还有多个其他策略同时产生告警,那么将这些告警合并起来发送以减少告警数量。

按code合并是指将同一个监控对象下多个策略告警合并到一起。 若多个rule产生的告警同属一个code,会优先按code合并。按配置单元合并是指将一个服务下的告警合并到一起进行发送。当一个服务下同时有多台机器或实例的多个策略需要告警触发服务告警合并,定位服务的方式为运维监控系统中的配置单元。举例说明,策略设置为三段式,如

service-ff.rule.all:ip:CPU_IDLE,如果前两个字段service-ff.rule.all:ip 相同,则认为这些策

略是可以合并的,如果某个策略满足 merge_window,那么会将所有相关联的rule 所产生的告警合并起来发送出去。

按监控策略合并是指若一个监控策略下多台机器或实例产生告警,则将该策略下多余告警合并到一起。若一条告警满足 merge_window 条件且没有被以上合并策略发出去,则单独发送告警信息。

以上所述,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,根据本技术的技术方案及其技术构思加以等同替换或改变,都应涵盖在本技术的保护范围之内。

因篇幅问题不能全部显示,请点此查看更多更全内容