ACOS可观测运维套件—容器监控

文静1年前最新动态1584

一、简介

ACOS统一运维监控平台最新4.0版本支持容器能力,对于容器数据采集成功后会上报到控制台「容器监控」,您可以查看到租户内容器各种对象的数据信息。容器数据有两种查看和分析模式,通过切换页面左上角图标,您可以查看:

  • 容器对象列表,您可以对当前租户最近1小时内采集的 Containers、Pods、Services、Deployments、Clusters、Nodes、Jobs、Cron Jobs 数据以列表形式进行查看,并对列表内数据进行检索、筛选。

  • 容器分布图,您可以对租户内的 Pods 数据以分布图形式进行查看,并基于核心数据CPU/内存填充数据的大小,快速识别 pod 的性能状态。


111.png

 二、容器服务

容器接入

目前ACOS提供两种接入环境:支持使用Prometheus监控监测ACK下的Kubernetes集群的数据or使用Prometheus监控监测自建Kubernetes集群的数据。

阿里云托管版:提供与容器服务原生的集成能力,以及默认对容器服务集群控制面板和工作负载的监控,支持开启服务发现能力。

开源版本:通常为在阿里云上自建的Kubernetes集群或者运行在其他云环境的Kubernetes集群,支持开启服务发现能力。

说明 当前仅支持Helm3方式安装 ;上述安装方式在安装prometheus-operator脚本略有差异,其他步骤基本类似。

image.png

什么是promtheus?

ACOS Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供托管的Prometheus服务。

说明 Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活查询语句PromQL以及数据可视化展示等。更多信息,请参见Prometheus官方文档

为什么选择promtheus?

ACOS Prometheus监控为用户的应用平台提供多场景、多层次、多维度指标数据的监控能力,结合可视化大盘和告警功能。以开放的方式为用户提供服务的原则下,ACOS Prometheus监控帮助用户轻松构建全面、稳定、安全、高可用性和高扩展性的可观测平台。

三、功能特性

1、监控项

容器服务Kubernetes版的集群核心组件、节点、命名空间、工作负载、应用和容器组(Pod)的监控项。

2、监控指标

服务发现:默认服务发现-是Prometheus监控内置的服务发现功能,在接入Prometheus监控时自动开启;ServiceMonitor-支持手动添加ServiceMonitor配置Prometheus监控的采集规则进行指标采集;PodMonitor-支持手动添加PodMonitor配置Prometheus监控的采集规则进行指标采集;自定义服务发现-支持通过手动编辑YAML文件方式自动服务发现。

Targets:支持通过Targets直观查看正在被抓取的目标,以及抓取状态是否正常。

指标:支持查看基础指标和系统指标以及指标在选定时间段的占比和指标量数据。

222.png

Agent自监控:Agent自监控大盘,包含Agent自身运行状态、实时和历史指标抓取耗时以及抓取数量、数据发送、资源占用等信息。其中Targets数量分布/Series数量分布-展示了采集Targets分配情况以及Series抓取量级;Agent心跳-展示了每个Agent的存活状态;写入成功/失败数量-展示了数据发送的情况等;通过该自监控大盘,帮助您及时发现集群监控存在的问题,快速定位问题根因,简化您的日常运维步骤,提升运维效率。

image.png

3、监控数据

预置丰富的监控大盘,同时支持自定义大盘来展示监控数据。监控内容包括集群的核心组件、节点、命名空间、工作负载等相关数据核心指标。

image.png

监控可视化,支持在可视化仪表盘使PromQL语句将集群数据绘制为自定义监控大盘。

image.png

4、监控告警

预置多种报警规则模板,支持针对特定监控对象自定义报警规则,同时支持告警的恢复通知和告警静默处理。当规则被触发时,系统会以您指定的报警方式向报警联系人分组发送报警信息,以提醒报警联系人采取必要的问题解决措施。

image.pngimage.png

四、结束语

观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。



相关文章

可观测领域系列之存储分析鉴赏Talk(Part 1)

可观测领域系列之存储分析鉴赏Talk(Part 1)

前面有文章也提到过,可观测领域目前尚存的一些短板,其中存储分析就是其一,只能根据过往的一些经验,以及调研分析来尝试帮大家鉴赏下当前这个领域的一些技术和竞品分析。在分析这个问题之前,我们先从场景出发,以...

现场太火爆,CEO徐进挺带来Oracle上云最佳实践

现场太火爆,CEO徐进挺带来Oracle上云最佳实践

10月20号,云栖大会“企业上云与数据管理专场论坛”上,袋鼠云CEO徐进挺(丁原)以《阿里云&袋鼠云oracle上云最佳实践》为主题发表演讲,以Oracle单节点、Oracle DG、Orac...

ACOS统一监控之达梦数据采集

ACOS统一监控之达梦数据采集

署名-汪勇(苏夏)一、前言基于目前的互联网环境趋势和国家的倡导,在将来软件基础新的工具或应用国产化是一大方向。而在运维可视化这个行业来说,我们ACOS产品也是需要达梦数据的运行状态做一定的监控,从而完...

正式发布 | 《云运维服务白皮书》开放下载!

正式发布 | 《云运维服务白皮书》开放下载!

在全球数字化变革的背景下,为适应数字经济环境下企业生存发展和市场变化的需要,企业进行主动的、系统性、整体性的数字化转型升级。大数据、云计算、人工智能、区块链等新一代信息通信技术为企业的数字化转型提供了...

深度解读|云掣《云运维服务白皮书》全方位解析!

深度解读|云掣《云运维服务白皮书》全方位解析!

如今全球各行各业纷纷进行数字化变革,为适应数字经济环境下企业生存发展和市场变化的需要,企业选择进行主动的、系统性、整体性的数字化转型升级。大数据、云计算、人工智能、区块链等新一代信息通信技术为企业的数...

大数据基础之Hive入门介绍

大数据基础之Hive入门介绍

一、什么是HiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。