运维监控体系总结

悠然2年前行业资讯1341

总结归纳运维工作中的监控内容。

监控目标:明白监控的重要性以及使用监控要实现的业务目标

通常包括以下三点:

  • 对目标系统进行实时监控

  • 监控可以实时反馈目标系统的当前状态 目标系统硬件、软件、业务是否正常、目前处于何种状态

  • 保证目标系统可靠性,业务可以持续稳定运行 有问题第一时间反馈出来,便于运维人员处理

监控方法

  • 了解监控对象 例如:CPU如何工作?
  • 性能基准指标 例如: CPU使用率、负载、用户态、内核态、上下文切换
  • 报警阈值定义 例如: CPU负载高的定义,内核态、用户态多少算高
  • 故障处理流程 如何更高效处理故障的流程

监控核心

  • 发现问题
  • 定位问题
  • 解决问题
  • 总结问题,对故障原因及问题防范进行归纳总结,避免以后重复出现

监控工具

  • 老牌监控

    • Cacti

    • Nagios

    • smokeping

  • 流行监控

    • Zabbix

    • OpenFalcon

    • Prometheus+Grafana

    • 滴滴开源夜莺Nightingale

    • smartping(专用于网络监控)

    • LEPUS天兔(专用于监控数据库)

    • 自研

  • 第三方监控

    • 监控宝

    • 听云

    • newrelic

监控流程

  • 采集

通过SNMP、Agent、ICMP、SSH、IPMI等对系统进行数据采集

  • 存储

各类数据库服务,MySQL、PostgreSQL

  • 分析

提供图形及时间线情况信息,方便我们定位故障所在

  • 展示

指标信息、指标趋势展示

  • 报警

电话、邮件、微信、短信、报警升级机制

  • 处理

故障级别判定,找响应人员进行快速处理

监控指标

硬件监控

  • 机器硬件:CPU温度、物理磁盘、虚拟磁盘、主板温度、磁盘阵列
    IPMI工具无法获取到硬件的状态,可以借助MegaCli工具探测Raid磁盘队列状态
    https://www.ibm.com/developerworks/cn/linux/l-ipmi/

系统监控

  • 主机存活
  • CPU、内存、硬盘、使用率
  • inode
  • 负载
  • 网卡出入带宽
  • TCP连接数
  • 磁盘读写、只读

应用监控

MySQL

  • 服务可用性

  • 内存使用率

  • 磁盘使用

  • 主从不同步及延迟

  • 备份情况

  • 连接数

Redis、Redis Cluster

  • 负载

  • 内存使用率

  • 连接数量

  • qps

Nginx

  • 状态码

  • 连接状态信息

  • RabbitMQ

  • PHP-FPM

  • OpenLDAP

    • 接入IP

    • 调用次数

  • Zimbra

  • OpenVPN

    • 版本信息、当前在线

    • 用户、分配IP、客户端连接IP、通过IP获取地址位置、接收发送流量 连接时间 时长 连接ID

  • ELK

  • Graylog

  • GitLab

  • Jenkins

  • MongoDB

  • HAproxy

网络监控

  • 网络质量

  • 公网出口

  • 专线带宽

  • 网络设备

流量分析

日志监控

安全监控

  • URL、API监控

  • 自研

  • 阿里云方案

性能监控(APM)java|php|go|nodejs|分布式链路追踪

  • PinPoint

  • Zipkin

  • SkyWalking

  • CAT、Jaeger

业务监控

电商业务为例:

  • 每分钟产生多少订单

  • 每分钟注册多少用户

  • 每分钟多少活跃用户

  • 每天有多少推广活动

  • 推广活动引入多少用户

  • 推广活动引入多少流量

  • 推广活动引入多少利润

其他

  • SSL证书监控

  • 存活性 进程是否还在,端口监听、Log滚动

  • 健康指标 MQ消息堆积量

  • 接口监控 API成功率,延迟情况,QPS等等

监控报警

  • 邮件

  • 短信

  • 钉钉、微信、企业微信等其他即时通信软件

  • 电话

报警处理

故障自愈: 服务器宕机自动启动。利用软件机制supervisor,systemd或者自定义脚本实现

综合监控

硬件监控

通过SNMP来进行路由器交换机的监控、其他内容使用IPMI实现。如果都是公有云,可以忽略这部分内容。案例:Open-Falcon监控H3C-ER3260G2路由器

系统监控

服务监控

  • 服务自带

    • Nginx自带status模块

    • PHP相应status模块

    • MySQL利用percona官方工具进行监控

  • 通过自定义方法获取数据

    • MySQL show global status xxx;

    • Redis info指令信息

  • 网络监控(混合云架构)

    • smokeping

    • smartping

  • 安全监控

    • 云服务直接用云安全组即可,或者补充本机iptables

    • 硬件防火墙

    • Web服务使用Nginx+Lua实现Web层面的防火墙,或者Openresty

  • 日志监控
    ELK、Graylog实现异常日志,错误日志关键字的监控

  • 业务监控
    确定监控指标,监控起来,业务不同各不相同

  • 流量分析
    建议使用百度统计,google统计,商业,研发嵌入代码实现。

    或者使用piwik

  • 可视化
    dashboard

  • 自动化监控
    通过API,批量操作

监控总结

完整的监控系统,需要对业务有详尽的了解,软件只是手段。

戳我进入云掣官网

免责声明:

本文转载自运维派,版权归原作者所有,如若侵权请联系我们进行删除!

相关文章

CPU--平均负载

1、原理概述平均负载是指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,也就是平均活跃进程数,它和 CPU 使用率并没有直接关系。   * ...

IDC:疫情下,第三方云管理服务市场逆势增长!

IDC:疫情下,第三方云管理服务市场逆势增长!

IDC预测,中国第三方云管理服务在2019年到2023年间将保持54.7%的增长率,2023年市场规模预计达到32.1亿美元。2019年第三方云管理服务市场呈现出如下特点:云管理服务成为众多服务商的战...

CDP实操--HDFS角色迁移

CDP实操--HDFS角色迁移

    hdfs角色迁移功能在cdp页面中就可以实现该功能,迁移的时间与namenode元数据大小,以及block数量多少有关,注意迁移过程中集群需要关闭,要预留出操作时间窗口。1、页面选择迁移角色2...

内存--模拟内存打满

1 tmpfs介绍tmpfs是一种虚拟内存文件系统,正如这个定义它最大的特点就是它的存储空间在VM里面     VM是由linux内核里面的vm子系统管理的东...

CPU--上下文切换

CPU--上下文切换

一、概述1、Linux 是一个多任务操作系统,它支持远大于 CPU 数量的任务同时运行。当然,这些任务实际上并不是真的在同时运行,而是因为系统在很短的时间内,将 ...

chengying-4.0登入接口逆向

chengying-4.0登入接口逆向

首先是登入的加密url:http://xxxxx/api/v2/user/login参数1. username:admin@dtstack.com2. password:614bb9438210c69...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。