ACOS可观测运维套件—容器监控

文静2年前最新动态1991

一、简介

ACOS统一运维监控平台最新4.0版本支持容器能力,对于容器数据采集成功后会上报到控制台「容器监控」,您可以查看到租户内容器各种对象的数据信息。容器数据有两种查看和分析模式,通过切换页面左上角图标,您可以查看:

  • 容器对象列表,您可以对当前租户最近1小时内采集的 Containers、Pods、Services、Deployments、Clusters、Nodes、Jobs、Cron Jobs 数据以列表形式进行查看,并对列表内数据进行检索、筛选。

  • 容器分布图,您可以对租户内的 Pods 数据以分布图形式进行查看,并基于核心数据CPU/内存填充数据的大小,快速识别 pod 的性能状态。


111.png

 二、容器服务

容器接入

目前ACOS提供两种接入环境:支持使用Prometheus监控监测ACK下的Kubernetes集群的数据or使用Prometheus监控监测自建Kubernetes集群的数据。

阿里云托管版:提供与容器服务原生的集成能力,以及默认对容器服务集群控制面板和工作负载的监控,支持开启服务发现能力。

开源版本:通常为在阿里云上自建的Kubernetes集群或者运行在其他云环境的Kubernetes集群,支持开启服务发现能力。

说明 当前仅支持Helm3方式安装 ;上述安装方式在安装prometheus-operator脚本略有差异,其他步骤基本类似。

image.png

什么是promtheus?

ACOS Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供托管的Prometheus服务。

说明 Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活查询语句PromQL以及数据可视化展示等。更多信息,请参见Prometheus官方文档

为什么选择promtheus?

ACOS Prometheus监控为用户的应用平台提供多场景、多层次、多维度指标数据的监控能力,结合可视化大盘和告警功能。以开放的方式为用户提供服务的原则下,ACOS Prometheus监控帮助用户轻松构建全面、稳定、安全、高可用性和高扩展性的可观测平台。

三、功能特性

1、监控项

容器服务Kubernetes版的集群核心组件、节点、命名空间、工作负载、应用和容器组(Pod)的监控项。

2、监控指标

服务发现:默认服务发现-是Prometheus监控内置的服务发现功能,在接入Prometheus监控时自动开启;ServiceMonitor-支持手动添加ServiceMonitor配置Prometheus监控的采集规则进行指标采集;PodMonitor-支持手动添加PodMonitor配置Prometheus监控的采集规则进行指标采集;自定义服务发现-支持通过手动编辑YAML文件方式自动服务发现。

Targets:支持通过Targets直观查看正在被抓取的目标,以及抓取状态是否正常。

指标:支持查看基础指标和系统指标以及指标在选定时间段的占比和指标量数据。

222.png

Agent自监控:Agent自监控大盘,包含Agent自身运行状态、实时和历史指标抓取耗时以及抓取数量、数据发送、资源占用等信息。其中Targets数量分布/Series数量分布-展示了采集Targets分配情况以及Series抓取量级;Agent心跳-展示了每个Agent的存活状态;写入成功/失败数量-展示了数据发送的情况等;通过该自监控大盘,帮助您及时发现集群监控存在的问题,快速定位问题根因,简化您的日常运维步骤,提升运维效率。

image.png

3、监控数据

预置丰富的监控大盘,同时支持自定义大盘来展示监控数据。监控内容包括集群的核心组件、节点、命名空间、工作负载等相关数据核心指标。

image.png

监控可视化,支持在可视化仪表盘使PromQL语句将集群数据绘制为自定义监控大盘。

image.png

4、监控告警

预置多种报警规则模板,支持针对特定监控对象自定义报警规则,同时支持告警的恢复通知和告警静默处理。当规则被触发时,系统会以您指定的报警方式向报警联系人分组发送报警信息,以提醒报警联系人采取必要的问题解决措施。

image.pngimage.png

四、结束语

观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。



相关文章

袋鼠云秋季发布会圆满落幕,AI驱动让生产力数智化

袋鼠云秋季发布会圆满落幕,AI驱动让生产力数智化

在当今时代,AI 的发展如汹涌浪潮,其速度之快超越了任何历史时期。它以前所未有的迅猛之势,渗入到各个领域的不同场景之中,悄然重塑着商业模式与人们的生活方式。在 AI 逐渐成为企业基础属性的背景下,袋鼠...

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

1月13日,袋鼠云旗下数据化运维子公司云掣科技与阿里云再度签署战略合作协议,阿里云智能云原生应用平台负责人丁宇(花名:叔同)、阿里云云原生PaaS负责人张军(花名:游骥)、阿里云智能云原生可观测负责人...

客户实践案例丨详解如何改造存储表分区,彻底解决Zabbix误告警现象

客户实践案例丨详解如何改造存储表分区,彻底解决Zabbix误告警现象

Zabbix 是一款常用的监控工具,它可以监控网络设备、服务器、应用程序等多种资源的状态。目前,使用 Zabbix 最大的瓶颈是数据库,维护好 Zabbix 的数据存储和告警,就能很好地应用 Zabb...

MySQL数据库线程池泄露场景解决方案

MySQL数据库线程池泄露场景解决方案

在数字化时代,数据是企业的核心资产,而数据库则是存储和管理这些资产的重要仓库。本文通过云掣为某信息化管理行业客户快速解决MySQL数据库故障的案例,详细的分享了MySQL数据库出现问题时的解决思路和具...

从模拟数据到场景复现,剖析 MySQL Online DDL 异常报错之谜

从模拟数据到场景复现,剖析 MySQL Online DDL 异常报错之谜

本文从模拟数据到场景复现,深入浅出的分享了 MySQL 在线 DDL 变更误触报错的原因分析和解决方案,以减少或避免在Online DDL操作中误触发异常错误,提高数据库变更的成功率,希望能对遇到相似...

袋鼠云多层级数据填报与报送平台TableFill:一天搞定1000人的数据填报工作

袋鼠云多层级数据填报与报送平台TableFill:一天搞定1000人的数据填报工作

10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。会上,易知微产品经理林树为大家带...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。