ACOS可观测运维套件—容器监控

文静2年前最新动态1834

一、简介

ACOS统一运维监控平台最新4.0版本支持容器能力,对于容器数据采集成功后会上报到控制台「容器监控」,您可以查看到租户内容器各种对象的数据信息。容器数据有两种查看和分析模式,通过切换页面左上角图标,您可以查看:

  • 容器对象列表,您可以对当前租户最近1小时内采集的 Containers、Pods、Services、Deployments、Clusters、Nodes、Jobs、Cron Jobs 数据以列表形式进行查看,并对列表内数据进行检索、筛选。

  • 容器分布图,您可以对租户内的 Pods 数据以分布图形式进行查看,并基于核心数据CPU/内存填充数据的大小,快速识别 pod 的性能状态。


111.png

 二、容器服务

容器接入

目前ACOS提供两种接入环境:支持使用Prometheus监控监测ACK下的Kubernetes集群的数据or使用Prometheus监控监测自建Kubernetes集群的数据。

阿里云托管版:提供与容器服务原生的集成能力,以及默认对容器服务集群控制面板和工作负载的监控,支持开启服务发现能力。

开源版本:通常为在阿里云上自建的Kubernetes集群或者运行在其他云环境的Kubernetes集群,支持开启服务发现能力。

说明 当前仅支持Helm3方式安装 ;上述安装方式在安装prometheus-operator脚本略有差异,其他步骤基本类似。

image.png

什么是promtheus?

ACOS Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供托管的Prometheus服务。

说明 Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活查询语句PromQL以及数据可视化展示等。更多信息,请参见Prometheus官方文档

为什么选择promtheus?

ACOS Prometheus监控为用户的应用平台提供多场景、多层次、多维度指标数据的监控能力,结合可视化大盘和告警功能。以开放的方式为用户提供服务的原则下,ACOS Prometheus监控帮助用户轻松构建全面、稳定、安全、高可用性和高扩展性的可观测平台。

三、功能特性

1、监控项

容器服务Kubernetes版的集群核心组件、节点、命名空间、工作负载、应用和容器组(Pod)的监控项。

2、监控指标

服务发现:默认服务发现-是Prometheus监控内置的服务发现功能,在接入Prometheus监控时自动开启;ServiceMonitor-支持手动添加ServiceMonitor配置Prometheus监控的采集规则进行指标采集;PodMonitor-支持手动添加PodMonitor配置Prometheus监控的采集规则进行指标采集;自定义服务发现-支持通过手动编辑YAML文件方式自动服务发现。

Targets:支持通过Targets直观查看正在被抓取的目标,以及抓取状态是否正常。

指标:支持查看基础指标和系统指标以及指标在选定时间段的占比和指标量数据。

222.png

Agent自监控:Agent自监控大盘,包含Agent自身运行状态、实时和历史指标抓取耗时以及抓取数量、数据发送、资源占用等信息。其中Targets数量分布/Series数量分布-展示了采集Targets分配情况以及Series抓取量级;Agent心跳-展示了每个Agent的存活状态;写入成功/失败数量-展示了数据发送的情况等;通过该自监控大盘,帮助您及时发现集群监控存在的问题,快速定位问题根因,简化您的日常运维步骤,提升运维效率。

image.png

3、监控数据

预置丰富的监控大盘,同时支持自定义大盘来展示监控数据。监控内容包括集群的核心组件、节点、命名空间、工作负载等相关数据核心指标。

image.png

监控可视化,支持在可视化仪表盘使PromQL语句将集群数据绘制为自定义监控大盘。

image.png

4、监控告警

预置多种报警规则模板,支持针对特定监控对象自定义报警规则,同时支持告警的恢复通知和告警静默处理。当规则被触发时,系统会以您指定的报警方式向报警联系人分组发送报警信息,以提醒报警联系人采取必要的问题解决措施。

image.pngimage.png

四、结束语

观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。



相关文章

应对复杂架构下的监控挑战?统一运维可观测能力是关键!

在全球数字化变革背景下,企业需适应数字经济与市场变化,进行系统性数字化转型。在“十四五”规划指导下,企业纷纷探求数字化应用之路,大数据、云计算、人工智能、区块链等技术成了热门话题,其中云运维备受瞩目。...

ACOS统一监控之达梦数据采集

ACOS统一监控之达梦数据采集

署名-汪勇(苏夏)一、前言基于目前的互联网环境趋势和国家的倡导,在将来软件基础新的工具或应用国产化是一大方向。而在运维可视化这个行业来说,我们ACOS产品也是需要达梦数据的运行状态做一定的监控,从而完...

大数据基础之Hive入门介绍

大数据基础之Hive入门介绍

一、什么是HiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数...

EasyTwin:全方位升级,打造高质量数智化孪生应用

10月30日,袋鼠云“AI驱动,数智未来”主题秋季发布会成功落幕。在这场盛会中,我们一起深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。在发布会现场,展示了众多集成AI...

指标+AI+BI,袋鼠云构建智能数据分析新范式

指标+AI+BI,袋鼠云构建智能数据分析新范式

10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。作为大会的重要环节之一,袋鼠云数...

袋鼠云CEO宁海元:打通数智基建到应用的通路,让数据不再“躺灰” | 数据猿专访

袋鼠云CEO宁海元:打通数智基建到应用的通路,让数据不再“躺灰” | 数据猿专访

一家大型制造企业的老板最近心情颇为复杂。几年前,企业投入巨资构建数据存储和治理系统,如今数据确实源源不断地积累,但他发现,这些数据似乎并没有带来预期的业务收益。虽然存储成本逐年攀升,但数据依旧沉睡在系...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。