ACOS无数据告警实践

文静3年前技术文章946
1.说明

在实现数据监控的过程中告警能力无疑是重中之重,无数据告警亦是告警能力中重要的场景,这里我们聊聊关于无数据一些场景和实践方法。

2.无数据可能场景

对于运维监控平台来说无数据是一个比较复杂的情况,从数据的产生、数据采集、数据上报到存储一系列过程中每个环节都可能会出现无数据的情况。

以下是出现过的一些场景,例如:

  1. 数据采集阶段出现故障:

    Agent等采集器采集异常(采集异常的又分为多种情况和具体使用的采集器有关,此处不做过多介绍)、数据导入任务异常或者数据写入出错等情况都有可能导致我们日志数据、指标数据为无数据。

  2. 用户业务系统出现问题:

    例如监控的用户某个应用系统模块相关指标,在一段时间内,由于该系统模块出现故障,导致没有对应的调用数据,同时也日志库中也相关数据打印。

  3. 服务器宕机:

    监控产品在采集和存储指标类数据,如果被采集指标的服务器出现宕机的情况,那么就会导致时序库中出现没有数据的情况。

  4. 服务无调用:

    监有时候可能因为系统无调用就没有产生数据,这种情况是否正常需要根据业务和历史常态经验去具体判断。

因此监控数据存储库中无数据的情况,是保证数据成功上传到以及判断系统调用是否正常的一个重要手段,本文将介绍一些无数据告警的常见配置和使用方法。

3.ACOS无数据告警处理场景

方法1:数据查询

使用监控平台创建一个监控规则时,当查询分析语句执行的结果为空时就会触发无数据的告警。无数据告触发启停发可以单独配置,并且当有数据时,依然走的是评估触发条件的逻辑,因此,开启这个功能后,不会影响原有的告警监测内容,只是在无数据时单独执行了一条逻辑。

image.png

方法2:自定义无数据

本方法不用开启无数据告警,而是创建一个专门用于监测是否有数据的告警。选择时间数据查询范围为1小时(相对),执行如下语句,查询1小时的查询结果。然后对前面查询结果创建告警监控规则,即触发条件cnt等于0。

查询语句

image.png

触发条件

image.png


常见问题

1、当前用户开启无数据告警同时在告警条件中设置监控数据>0触发条件,结果预判是无数据时不会告警,这里要解释当数据无数据无数据告警开启将会直接走无数据告警逻辑,即设置的告警条件触发仅在有数据的情况下。

2、无数据设置检查时间至少在数据采集频率的2倍,由于数据采集+上报需要一定时间,若时间太短可能因为数据上报的过程空隙中一直触发无数据,这是一种无意义的触发。



结束

观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。



相关文章

Containerd OCI runtime create failed

Containerd OCI runtime create failed

1、背景Kubernetes 集群新增 worker 节点(centos7、containerd),发现容器一直启动不起来。2、报错信息经查看系统 message 日志发现如下报错信息:rpc err...

MySQL 添加列报错处理

MySQL 添加列报错处理

一、添加列报错(65535)表添加列收到报错,具体 SQL 和报错信息如下:ALTER TABLE table ADD column varchar(256) NULL COMMENT '个人打款授权...

EMR部署Kudu

EMR部署Kudu

前置准备部署kudu的节点yum安装cyrus相关包,如果有不通外网的可以在通外网的节点开启yum缓存包配置,将yum包缓存在本地后scp到不通外网的节点在进行yum安装。yum install cy...

PG的多版本并发控制(三)

三、多版本并发控制3.1 常见多版本并发的实现方式第一种方式是,数据库仅保存最新版本数据,将发生变更的旧行版本数据写到其他地方如undo,当需要读取旧版本数据时,通过undo重构。oracle和MyS...

磁盘存储和文件系统详解

磁盘存储和文件系统详解

1、磁盘结构设备文件:关联至一个设备驱动程序,进而能够与之对应硬件设备进行通信I/O Ports:I/O 设备地址一切皆文件:open(),read(),write(),close()设备类型:块设备...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。