ACOS-可观测运维套件

文静2年前技术文章1902

一、背景

随着企业分布式应用、云计算的不断深入发展,业务系统的逻辑结构变得越来越复杂,面对企业运维复杂的环境和海量运维数据,在日常运维和生产运营中,会面临以下挑战:

    (1)多云,多系统,多服务,多数据的中台架构出现,单独靠传统的运维人工分析已经无法适应,导致运维故障定位难,故障恢复时间长,需要新的故障处理手段;

    (2)云平台提供的运维监控能力,只能针对本平台的单一数据来源监控,无法满足多云的资源监控和业务逻辑监控,需要提供全链路的监控手段;

    (3)故障发现,精准告警,容量水位预估等运维事项需要跨平台,跨数据域进行数据融合;多端的运维事件处理,需要平台和流程来支撑;

    (4)运维数据种类繁杂,数据标准不统一,需要统一数据模型,利用数据化分析手段解决运维问题。

老式的人工运维及其运维工具已满足不了企业复杂的IT业务运维场景。我们需要一种新的技术手段,用于实时追踪,及时发现和解决问题。可观测数据化运维思想逐渐被各大企业重视,利用大数据技术来收集、清洗、分析数据,同时结合指标、链路等挖掘出更大的价值,让技术运维驱动业务已成为现实,也是当下企业的主流方向。

二、什么是可观测?

    为什么需要可观测能力?可观测性是安全成产的必要手段。通过建设可观测性平台,高效全面的收集系统运行状态数据,在此基础上制定完善的告警策略,可大大提高系统故障时的响应速率,降低运维人员排查成本,增强系统稳定性。

    什么是可观测性?ACOS平台将可观测性分解为三个更具体方向进行研究,分别是:事件日志、链路追踪和聚合度量。三个方向各有侧重,又不是完全独立。

EBB9059C-6EC3-4792-A0E8-E41D9742BCA2.pngimage.png

三、可观测运维使用场景

ACOS统一运维监控平台是一款开箱即用的可观测运维套件,为企业提供运维数据统一采集、统一存储、智能分析、全景监控能力,保障企业业务稳定高效运行。

1、端到端全链路监控

可观测产品支持从web网站前端API请求到后端应用调用链进行关联查询,包括关系型数据和非关系数据库调用分析、应用性能统计指标异常和错误分析等;其探针整体性能消耗<5%。





图片1.png

2、业务监控

    可观测产品支持多种数据源简单易用的日志切割和灵活的采集配置,同一日志来源支持多批次解析;配合可视化大盘配置丰富的可视化图表形成管理业务大盘。

    业务监控可通过对应用进行业务及架构打标,实现服务业务应用架构可视化,展示业务系统间调用关系、各个业务间请求量、调用次数、各业务提供的接口数量,结合以上信息可核算各业务服务价值,分析业务中台业务效能;兼具架构感知能力;作为业务中台能力中心的总控入口,可查看业务中心详情,包括监控告警、能力描述、出参、入参等信息。同时可作为服务能力管控入口,实现监、管、控一体


image.png


111.png

222.png










3、应用监控

可观测产品支持应用性能黄金指标、JVM监控、主机监控SQL 调用分析 、 NOSQL 调用分析异常分析 &、错误分析调用链查询 &、代码级下钻。

444.png

555.png

4、资源监控

可观测产品支持硬件设备监控(服务器/安全设备/存储设备)、网络设备监控(交换机/路由器)、主机监控(操作系统/进程)、容器监控、数据库监控、中间件监控。

666.png


5、前端监控

可观测产品支持基于真实用户访问数据,面向不同终端的提供前端用户体验监控的能力。无需埋点,支持多种接入方式灵活接入。实现端到端的性能分析。支持页面、接口、浏览器、操作系统、设备、运营商、网络、地区等多个维度对网页性能进行分析。

777.png

6、智能告警

    可观测产品支持快速接入各类告警信息,通过自动去重、规则压缩、通过智能算法减少告警噪音,避免告警风暴。通过配置分派、排班、通知策略等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。

888.png

四、可观测运维价值

  • 全方位监控:完整的运维技术栈数据采集,快速灵活扩展采集数据源。实时数据加工处理与输出,统一数据模型,数据化管理。

  • 智能化分析:智能告警策略,实时异常检测、告警收敛、故障分析诊断。高效数据分析,洞察系统运行状态和趋势,快速定位问题根源。

  • 高效率管理:事件全生命周期实时跟踪和闭环管控,流程化管理。自动化运维巡检、运维报告,摆脱日常重复性工作。

999.png

五、结束语

可观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。


相关文章

Yarn生产环境核心参数

(1)ResourceManager相关配置调度器:yarn.resourcemanager.scheduler.class    默认是容量调度器处理调度器请求的线程数量:yarn.resource...

kafka文件存储机制

kafka文件存储机制

Topic 数据的存储机制       Topic是逻辑上的概念,而partition是物理上的概念,每个partition对应于一个log文件,该log文件中存储的就是Producer生产的数据。P...

Prometheus+Consul服务自动发现监控

Prometheus+Consul服务自动发现监控

为什么使用consulprometheus作为新一代的监控利器,有很多优点,部署起来也十分方便。部署prometheus后自然会需要使用prometheus去监控物理机或者虚拟机的资源,这里就需要使用...

使用Velero备份与恢复K8s集群及应用

使用Velero备份与恢复K8s集群及应用

环境3台虚拟机组成一主两从的测试集群,使用NFS作为动态存储主机IP系统k8s-master192.168.1.10centos7.9k8s-node1192.168.1.11centos7.9k8s...

kafka开启kerberos和ACL

kafka开启kerberos和ACL

kafka开启kerberos和ACL一、部署kafka-KB包1.上传软件包依次点击 部署中心----部署组件----上传软件包选择需要升级的kafka版本并点击确定 2.部署kafka依次点击部署...

scylladb下线数据中心

1、在要下线的老数据中心所有节点运行数据修复nodetool -h ::FFFF:127.0.0.1 repair -pr2、更改所有业务keyspace的复制策略不在写入老的数据中心--查看所有的k...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。