ACOS无数据告警实践

文静2年前技术文章885
1.说明

在实现数据监控的过程中告警能力无疑是重中之重,无数据告警亦是告警能力中重要的场景,这里我们聊聊关于无数据一些场景和实践方法。

2.无数据可能场景

对于运维监控平台来说无数据是一个比较复杂的情况,从数据的产生、数据采集、数据上报到存储一系列过程中每个环节都可能会出现无数据的情况。

以下是出现过的一些场景,例如:

  1. 数据采集阶段出现故障:

    Agent等采集器采集异常(采集异常的又分为多种情况和具体使用的采集器有关,此处不做过多介绍)、数据导入任务异常或者数据写入出错等情况都有可能导致我们日志数据、指标数据为无数据。

  2. 用户业务系统出现问题:

    例如监控的用户某个应用系统模块相关指标,在一段时间内,由于该系统模块出现故障,导致没有对应的调用数据,同时也日志库中也相关数据打印。

  3. 服务器宕机:

    监控产品在采集和存储指标类数据,如果被采集指标的服务器出现宕机的情况,那么就会导致时序库中出现没有数据的情况。

  4. 服务无调用:

    监有时候可能因为系统无调用就没有产生数据,这种情况是否正常需要根据业务和历史常态经验去具体判断。

因此监控数据存储库中无数据的情况,是保证数据成功上传到以及判断系统调用是否正常的一个重要手段,本文将介绍一些无数据告警的常见配置和使用方法。

3.ACOS无数据告警处理场景

方法1:数据查询

使用监控平台创建一个监控规则时,当查询分析语句执行的结果为空时就会触发无数据的告警。无数据告触发启停发可以单独配置,并且当有数据时,依然走的是评估触发条件的逻辑,因此,开启这个功能后,不会影响原有的告警监测内容,只是在无数据时单独执行了一条逻辑。

image.png

方法2:自定义无数据

本方法不用开启无数据告警,而是创建一个专门用于监测是否有数据的告警。选择时间数据查询范围为1小时(相对),执行如下语句,查询1小时的查询结果。然后对前面查询结果创建告警监控规则,即触发条件cnt等于0。

查询语句

image.png

触发条件

image.png


常见问题

1、当前用户开启无数据告警同时在告警条件中设置监控数据>0触发条件,结果预判是无数据时不会告警,这里要解释当数据无数据无数据告警开启将会直接走无数据告警逻辑,即设置的告警条件触发仅在有数据的情况下。

2、无数据设置检查时间至少在数据采集频率的2倍,由于数据采集+上报需要一定时间,若时间太短可能因为数据上报的过程空隙中一直触发无数据,这是一种无意义的触发。



结束

观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。



相关文章

RBAC配置只读用户

一.背景有时候需要给第三方业务访问k8s集群,但是rancher无法实现提取容器内文件的功能。此时需要给第三方直接访问k8s集群的能力,并且进行一定的权限限制二.操作前了解相关配置和要求熟悉linux...

CPU--使用率

CPU--使用率

一、CPU和任务统计信息查询/proc/stat第一行表示所有CPU的累加其他列表示不同场景下CPU的累加节拍数,单位:USER_HZ即10ms➜  ~ cat ...

MySQL 8.0 新特性:Clone Plugin

MySQL 8.0 新特性:Clone Plugin

一、前言MySQL 在 8.0.17 加入了克隆插件,可以从本地或者远程克隆数据,比如需要创建主从关系,我们一般都是通过物理备份来做,那如果你使用的是 MySQL 8.0.17 及以上的版本那么就可以...

Linux 会话管理

Linux 会话管理

在 terminal 终端中输入命令,这种用户与计算机的临时交互称为一次会话(session)。会话的一个重要特点:与其中启动的进程是连在一起的,打开窗口、会话开始,关闭窗口、会话结束,会话内部的进程...

百万并发下的nginx优化

百万并发下的nginx优化

百万并发下的nginx优化之道一、nginx地址重写1、nginx地址重写(rewrite)介绍nginx地址重写的主要功能是实现URL地址的重定向。服务器获得一个来访的URL请求,然后改写成服务器可...

PG的统计信息(三)

1.3 数据分布类统计信息1.3.1 pg_stats通过对pg_stats的查询,可以查看每个字段的数据分析统计信息,类似SQL Server的直方图,为优化器选择最佳执行计划提供依据,pg_sta...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。