ACOS-可观测运维套件
一、背景
随着企业分布式应用、云计算的不断深入发展,业务系统的逻辑结构变得越来越复杂,面对企业运维复杂的环境和海量运维数据,在日常运维和生产运营中,会面临以下挑战:
(1)多云,多系统,多服务,多数据的中台架构出现,单独靠传统的运维人工分析已经无法适应,导致运维故障定位难,故障恢复时间长,需要新的故障处理手段;
(2)云平台提供的运维监控能力,只能针对本平台的单一数据来源监控,无法满足多云的资源监控和业务逻辑监控,需要提供全链路的监控手段;
(3)故障发现,精准告警,容量水位预估等运维事项需要跨平台,跨数据域进行数据融合;多端的运维事件处理,需要平台和流程来支撑;
(4)运维数据种类繁杂,数据标准不统一,需要统一数据模型,利用数据化分析手段解决运维问题。
老式的人工运维及其运维工具已满足不了企业复杂的IT业务运维场景。我们需要一种新的技术手段,用于实时追踪,及时发现和解决问题。可观测数据化运维思想逐渐被各大企业重视,利用大数据技术来收集、清洗、分析数据,同时结合指标、链路等挖掘出更大的价值,让技术运维驱动业务已成为现实,也是当下企业的主流方向。
二、什么是可观测?
为什么需要可观测能力?可观测性是安全成产的必要手段。通过建设可观测性平台,高效全面的收集系统运行状态数据,在此基础上制定完善的告警策略,可大大提高系统故障时的响应速率,降低运维人员排查成本,增强系统稳定性。
什么是可观测性?ACOS平台将可观测性分解为三个更具体方向进行研究,分别是:事件日志、链路追踪和聚合度量。三个方向各有侧重,又不是完全独立。
三、可观测运维使用场景
ACOS统一运维监控平台是一款开箱即用的可观测运维套件,为企业提供运维数据统一采集、统一存储、智能分析、全景监控能力,保障企业业务稳定高效运行。
1、端到端全链路监控
可观测产品支持从web网站前端API请求到后端应用调用链进行关联查询,包括关系型数据和非关系数据库调用分析、应用性能统计指标异常和错误分析等;其探针整体性能消耗<5%。
2、业务监控
可观测产品支持多种数据源简单易用的日志切割和灵活的采集配置,同一日志来源支持多批次解析;配合可视化大盘配置丰富的可视化图表形成管理业务大盘。
业务监控可通过对应用进行业务及架构打标,实现服务业务应用架构可视化,展示业务系统间调用关系、各个业务间请求量、调用次数、各业务提供的接口数量,结合以上信息可核算各业务服务价值,分析业务中台业务效能;兼具架构感知能力;作为业务中台能力中心的总控入口,可查看业务中心详情,包括监控告警、能力描述、出参、入参等信息。同时可作为服务能力管控入口,实现监、管、控一体
3、应用监控
可观测产品支持应用性能黄金指标、JVM监控、主机监控SQL 调用分析 、 NOSQL 调用分析异常分析 &、错误分析调用链查询 &、代码级下钻。
4、资源监控
可观测产品支持硬件设备监控(服务器/安全设备/存储设备)、网络设备监控(交换机/路由器)、主机监控(操作系统/进程)、容器监控、数据库监控、中间件监控。
5、前端监控
可观测产品支持基于真实用户访问数据,面向不同终端的提供前端用户体验监控的能力。无需埋点,支持多种接入方式灵活接入。实现端到端的性能分析。支持页面、接口、浏览器、操作系统、设备、运营商、网络、地区等多个维度对网页性能进行分析。
6、智能告警
可观测产品支持快速接入各类告警信息,通过自动去重、规则压缩、通过智能算法减少告警噪音,避免告警风暴。通过配置分派、排班、通知策略等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。
四、可观测运维价值
全方位监控:完整的运维技术栈数据采集,快速灵活扩展采集数据源。实时数据加工处理与输出,统一数据模型,数据化管理。
智能化分析:智能告警策略,实时异常检测、告警收敛、故障分析诊断。高效数据分析,洞察系统运行状态和趋势,快速定位问题根源。
高效率管理:事件全生命周期实时跟踪和闭环管控,流程化管理。自动化运维巡检、运维报告,摆脱日常重复性工作。
五、结束语
可观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。