ACOS可观测运维套件—容器监控
一、简介
ACOS统一运维监控平台最新4.0版本支持容器能力,对于容器数据采集成功后会上报到控制台「容器监控」,您可以查看到租户内容器各种对象的数据信息。容器数据有两种查看和分析模式,通过切换页面左上角图标,您可以查看:
容器对象列表,您可以对当前租户最近1小时内采集的 Containers、Pods、Services、Deployments、Clusters、Nodes、Jobs、Cron Jobs 数据以列表形式进行查看,并对列表内数据进行检索、筛选。
容器分布图,您可以对租户内的 Pods 数据以分布图形式进行查看,并基于核心数据CPU/内存填充数据的大小,快速识别 pod 的性能状态。
二、容器服务
容器接入
目前ACOS提供两种接入环境:支持使用Prometheus监控监测ACK下的Kubernetes集群的数据or使用Prometheus监控监测自建Kubernetes集群的数据。
阿里云托管版:提供与容器服务原生的集成能力,以及默认对容器服务集群控制面板和工作负载的监控,支持开启服务发现能力。
开源版本:通常为在阿里云上自建的Kubernetes集群或者运行在其他云环境的Kubernetes集群,支持开启服务发现能力。
说明 当前仅支持Helm3方式安装 ;上述安装方式在安装prometheus-operator脚本略有差异,其他步骤基本类似。
什么是promtheus?
ACOS Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供托管的Prometheus服务。
说明 Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活查询语句PromQL以及数据可视化展示等。更多信息,请参见Prometheus官方文档。
为什么选择promtheus?
ACOS Prometheus监控为用户的应用平台提供多场景、多层次、多维度指标数据的监控能力,结合可视化大盘和告警功能。以开放的方式为用户提供服务的原则下,ACOS Prometheus监控帮助用户轻松构建全面、稳定、安全、高可用性和高扩展性的可观测平台。
三、功能特性
1、监控项
容器服务Kubernetes版的集群核心组件、节点、命名空间、工作负载、应用和容器组(Pod)的监控项。
2、监控指标
服务发现:默认服务发现-是Prometheus监控内置的服务发现功能,在接入Prometheus监控时自动开启;ServiceMonitor-支持手动添加ServiceMonitor配置Prometheus监控的采集规则进行指标采集;PodMonitor-支持手动添加PodMonitor配置Prometheus监控的采集规则进行指标采集;自定义服务发现-支持通过手动编辑YAML文件方式自动服务发现。
Targets:支持通过Targets直观查看正在被抓取的目标,以及抓取状态是否正常。
指标:支持查看基础指标和系统指标以及指标在选定时间段的占比和指标量数据。
Agent自监控:Agent自监控大盘,包含Agent自身运行状态、实时和历史指标抓取耗时以及抓取数量、数据发送、资源占用等信息。其中Targets数量分布/Series数量分布-展示了采集Targets分配情况以及Series抓取量级;Agent心跳-展示了每个Agent的存活状态;写入成功/失败数量-展示了数据发送的情况等;通过该自监控大盘,帮助您及时发现集群监控存在的问题,快速定位问题根因,简化您的日常运维步骤,提升运维效率。
3、监控数据
预置丰富的监控大盘,同时支持自定义大盘来展示监控数据。监控内容包括集群的核心组件、节点、命名空间、工作负载等相关数据核心指标。
监控可视化,支持在可视化仪表盘使PromQL语句将集群数据绘制为自定义监控大盘。
4、监控告警
预置多种报警规则模板,支持针对特定监控对象自定义报警规则,同时支持告警的恢复通知和告警静默处理。当规则被触发时,系统会以您指定的报警方式向报警联系人分组发送报警信息,以提醒报警联系人采取必要的问题解决措施。
四、结束语
观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。