ACOS可观测运维套件—容器监控

文静3年前最新动态2193

一、简介

ACOS统一运维监控平台最新4.0版本支持容器能力,对于容器数据采集成功后会上报到控制台「容器监控」,您可以查看到租户内容器各种对象的数据信息。容器数据有两种查看和分析模式,通过切换页面左上角图标,您可以查看:

  • 容器对象列表,您可以对当前租户最近1小时内采集的 Containers、Pods、Services、Deployments、Clusters、Nodes、Jobs、Cron Jobs 数据以列表形式进行查看,并对列表内数据进行检索、筛选。

  • 容器分布图,您可以对租户内的 Pods 数据以分布图形式进行查看,并基于核心数据CPU/内存填充数据的大小,快速识别 pod 的性能状态。


111.png

 二、容器服务

容器接入

目前ACOS提供两种接入环境:支持使用Prometheus监控监测ACK下的Kubernetes集群的数据or使用Prometheus监控监测自建Kubernetes集群的数据。

阿里云托管版:提供与容器服务原生的集成能力,以及默认对容器服务集群控制面板和工作负载的监控,支持开启服务发现能力。

开源版本:通常为在阿里云上自建的Kubernetes集群或者运行在其他云环境的Kubernetes集群,支持开启服务发现能力。

说明 当前仅支持Helm3方式安装 ;上述安装方式在安装prometheus-operator脚本略有差异,其他步骤基本类似。

image.png

什么是promtheus?

ACOS Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供托管的Prometheus服务。

说明 Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活查询语句PromQL以及数据可视化展示等。更多信息,请参见Prometheus官方文档

为什么选择promtheus?

ACOS Prometheus监控为用户的应用平台提供多场景、多层次、多维度指标数据的监控能力,结合可视化大盘和告警功能。以开放的方式为用户提供服务的原则下,ACOS Prometheus监控帮助用户轻松构建全面、稳定、安全、高可用性和高扩展性的可观测平台。

三、功能特性

1、监控项

容器服务Kubernetes版的集群核心组件、节点、命名空间、工作负载、应用和容器组(Pod)的监控项。

2、监控指标

服务发现:默认服务发现-是Prometheus监控内置的服务发现功能,在接入Prometheus监控时自动开启;ServiceMonitor-支持手动添加ServiceMonitor配置Prometheus监控的采集规则进行指标采集;PodMonitor-支持手动添加PodMonitor配置Prometheus监控的采集规则进行指标采集;自定义服务发现-支持通过手动编辑YAML文件方式自动服务发现。

Targets:支持通过Targets直观查看正在被抓取的目标,以及抓取状态是否正常。

指标:支持查看基础指标和系统指标以及指标在选定时间段的占比和指标量数据。

222.png

Agent自监控:Agent自监控大盘,包含Agent自身运行状态、实时和历史指标抓取耗时以及抓取数量、数据发送、资源占用等信息。其中Targets数量分布/Series数量分布-展示了采集Targets分配情况以及Series抓取量级;Agent心跳-展示了每个Agent的存活状态;写入成功/失败数量-展示了数据发送的情况等;通过该自监控大盘,帮助您及时发现集群监控存在的问题,快速定位问题根因,简化您的日常运维步骤,提升运维效率。

image.png

3、监控数据

预置丰富的监控大盘,同时支持自定义大盘来展示监控数据。监控内容包括集群的核心组件、节点、命名空间、工作负载等相关数据核心指标。

image.png

监控可视化,支持在可视化仪表盘使PromQL语句将集群数据绘制为自定义监控大盘。

image.png

4、监控告警

预置多种报警规则模板,支持针对特定监控对象自定义报警规则,同时支持告警的恢复通知和告警静默处理。当规则被触发时,系统会以您指定的报警方式向报警联系人分组发送报警信息,以提醒报警联系人采取必要的问题解决措施。

image.pngimage.png

四、结束语

观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。



相关文章

袋鼠云港口数智化解决方案发布,数智引领,加速“智变”

袋鼠云港口数智化解决方案发布,数智引领,加速“智变”

2023年12月,交通运输部印发《关于加快智慧港口和智慧航道建设的意见》,《意见》贯穿了“3条主线”,其中最首要的主线是“数字化”,数字化是基础,必须通过数字赋能建设、生产、运营、管理、服务的全要素、...

大数据基础之Hive入门介绍

大数据基础之Hive入门介绍

一、什么是HiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数...

应对复杂架构下的监控挑战?统一运维可观测能力是关键!

在全球数字化变革背景下,企业需适应数字经济与市场变化,进行系统性数字化转型。在“十四五”规划指导下,企业纷纷探求数字化应用之路,大数据、云计算、人工智能、区块链等技术成了热门话题,其中云运维备受瞩目。...

客户实践案例丨详解如何改造存储表分区,彻底解决Zabbix误告警现象

客户实践案例丨详解如何改造存储表分区,彻底解决Zabbix误告警现象

Zabbix 是一款常用的监控工具,它可以监控网络设备、服务器、应用程序等多种资源的状态。目前,使用 Zabbix 最大的瓶颈是数据库,维护好 Zabbix 的数据存储和告警,就能很好地应用 Zabb...

袋鼠云多层级数据填报与报送平台TableFill:一天搞定1000人的数据填报工作

袋鼠云多层级数据填报与报送平台TableFill:一天搞定1000人的数据填报工作

10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。会上,易知微产品经理林树为大家带...

可观测领域系列之存储分析鉴赏Talk(Part 1)

可观测领域系列之存储分析鉴赏Talk(Part 1)

前面有文章也提到过,可观测领域目前尚存的一些短板,其中存储分析就是其一,只能根据过往的一些经验,以及调研分析来尝试帮大家鉴赏下当前这个领域的一些技术和竞品分析。在分析这个问题之前,我们先从场景出发,以...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。