ACOS-可观测运维套件

文静2年前技术文章1836

一、背景

随着企业分布式应用、云计算的不断深入发展,业务系统的逻辑结构变得越来越复杂,面对企业运维复杂的环境和海量运维数据,在日常运维和生产运营中,会面临以下挑战:

    (1)多云,多系统,多服务,多数据的中台架构出现,单独靠传统的运维人工分析已经无法适应,导致运维故障定位难,故障恢复时间长,需要新的故障处理手段;

    (2)云平台提供的运维监控能力,只能针对本平台的单一数据来源监控,无法满足多云的资源监控和业务逻辑监控,需要提供全链路的监控手段;

    (3)故障发现,精准告警,容量水位预估等运维事项需要跨平台,跨数据域进行数据融合;多端的运维事件处理,需要平台和流程来支撑;

    (4)运维数据种类繁杂,数据标准不统一,需要统一数据模型,利用数据化分析手段解决运维问题。

老式的人工运维及其运维工具已满足不了企业复杂的IT业务运维场景。我们需要一种新的技术手段,用于实时追踪,及时发现和解决问题。可观测数据化运维思想逐渐被各大企业重视,利用大数据技术来收集、清洗、分析数据,同时结合指标、链路等挖掘出更大的价值,让技术运维驱动业务已成为现实,也是当下企业的主流方向。

二、什么是可观测?

    为什么需要可观测能力?可观测性是安全成产的必要手段。通过建设可观测性平台,高效全面的收集系统运行状态数据,在此基础上制定完善的告警策略,可大大提高系统故障时的响应速率,降低运维人员排查成本,增强系统稳定性。

    什么是可观测性?ACOS平台将可观测性分解为三个更具体方向进行研究,分别是:事件日志、链路追踪和聚合度量。三个方向各有侧重,又不是完全独立。

EBB9059C-6EC3-4792-A0E8-E41D9742BCA2.pngimage.png

三、可观测运维使用场景

ACOS统一运维监控平台是一款开箱即用的可观测运维套件,为企业提供运维数据统一采集、统一存储、智能分析、全景监控能力,保障企业业务稳定高效运行。

1、端到端全链路监控

可观测产品支持从web网站前端API请求到后端应用调用链进行关联查询,包括关系型数据和非关系数据库调用分析、应用性能统计指标异常和错误分析等;其探针整体性能消耗<5%。





图片1.png

2、业务监控

    可观测产品支持多种数据源简单易用的日志切割和灵活的采集配置,同一日志来源支持多批次解析;配合可视化大盘配置丰富的可视化图表形成管理业务大盘。

    业务监控可通过对应用进行业务及架构打标,实现服务业务应用架构可视化,展示业务系统间调用关系、各个业务间请求量、调用次数、各业务提供的接口数量,结合以上信息可核算各业务服务价值,分析业务中台业务效能;兼具架构感知能力;作为业务中台能力中心的总控入口,可查看业务中心详情,包括监控告警、能力描述、出参、入参等信息。同时可作为服务能力管控入口,实现监、管、控一体


image.png


111.png

222.png










3、应用监控

可观测产品支持应用性能黄金指标、JVM监控、主机监控SQL 调用分析 、 NOSQL 调用分析异常分析 &、错误分析调用链查询 &、代码级下钻。

444.png

555.png

4、资源监控

可观测产品支持硬件设备监控(服务器/安全设备/存储设备)、网络设备监控(交换机/路由器)、主机监控(操作系统/进程)、容器监控、数据库监控、中间件监控。

666.png


5、前端监控

可观测产品支持基于真实用户访问数据,面向不同终端的提供前端用户体验监控的能力。无需埋点,支持多种接入方式灵活接入。实现端到端的性能分析。支持页面、接口、浏览器、操作系统、设备、运营商、网络、地区等多个维度对网页性能进行分析。

777.png

6、智能告警

    可观测产品支持快速接入各类告警信息,通过自动去重、规则压缩、通过智能算法减少告警噪音,避免告警风暴。通过配置分派、排班、通知策略等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。

888.png

四、可观测运维价值

  • 全方位监控:完整的运维技术栈数据采集,快速灵活扩展采集数据源。实时数据加工处理与输出,统一数据模型,数据化管理。

  • 智能化分析:智能告警策略,实时异常检测、告警收敛、故障分析诊断。高效数据分析,洞察系统运行状态和趋势,快速定位问题根源。

  • 高效率管理:事件全生命周期实时跟踪和闭环管控,流程化管理。自动化运维巡检、运维报告,摆脱日常重复性工作。

999.png

五、结束语

可观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。


相关文章

HPA控制器

HPA控制器

HPA (动态扩缩容)kubectl 有一个 scale 命令 kubectl scale deployment/nginx --replicas=4 它可以帮助 Pod 进行扩缩容,这个过程完全手动...

hive创建hbase映射表

hive创建hbase映射表

hbase创建表,导入数据/opt/app/hbase-2.1.0/bin/hbase shell查看已有表,创建新表,查看表结构listcreate 'student', 'info', 'scor...

Kafka优化参数

一、配置文件Kafka的配置文件为 config/server.properties,在此文件中进行 Kafka 的基础配置,例如端口、日志目录、Zookeeper 信息和 Broker ID 等还可...

Python 识别 MySQL 中的冗余索引

前言最近在搞标准化巡检平台,通过 MySQL 的元数据分析一些潜在的问题。冗余索引也是一个非常重要的巡检目,表中索引过多,会导致表空间占用较大,索引的数量与表的写入速度与索引数成线性关系(微秒级),如...

impala集成ranger后无法刷新元数据

impala集成ranger后无法刷新元数据

【详细描述】impala集成ranger后无法执行invalidate metadata,报错显示没有对应权限【分析过程】daishuyun用户目前在ranger中的权限配置为:报错显示用户daish...

Jenkinsfile说明

Jenkinsfile说明

当我们在使用jenkins进行CI/CD的时候,简单的内容我们可以通过jenkins页面来实现配置。但是如果有复杂的需求还是需要通过jenkinsfile来实现jenkinsfile简单介绍Jenki...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。