可观测运维作战实践-ACOS全链路监控案例
在时间十分紧迫前提下为客户建设一套监控体系实践就是一次作战!下面问题怎么解呢?
1、客户现状痛点?
2、适合客户全链路监控怎么搭建?
3、故障突袭应急筹备方案?
4、acos团队面临内外夹击挑战?
5、作战结果与价值?
阐述背景
XX市新型冠状病毒肺炎疫情防控工作领导小组办公室下发《关于我市持续巩固疫情防控成果有序复工复产的实施方案》,明确XX全面复工复产时间点和任务安排,XX大数据中心要求防疫相关的扫码等服务系统务必保证稳定性,支撑XX人民有序复工复产。
复工复产迫在眉急,加固“xx码”“xx码”等服务系统稳定性。确保全xx市民众通过xx码有序复工复产。成为xx市大数据中心当前重保的第一要务。
客户痛点沟通
故障频发,且系统出现问题后无法及时发现,更多依赖人工上报和客诉,系统瓶颈点不知道在哪 里,流量一上来就挂。
客户xx系统复杂、底层服务厂商众多,缺少端到端的全链路监控工具,出现故障后定位问题困难。
故障发生后,应急处理无系统、无体系、无机制,协同各厂商处理故障时,各厂商相互推责,扯皮,最终归根到网络上,影响故障恢复时长。
客户需求了解
保障xx系统核心业务1、核心业务2的稳定性,实现业务丝滑顺畅,有效支撑全xx民众通过xx码有序的复工复产;
第一时间发现问题,发现问题时及时响应、快速故障定因、定位、定责,形成标准化的梯队,确保故障快速发现,快速恢复。
acos团队内外挑战:
内:接到任务,仅有1个月不到时间,通过ACOS的产品能力和安全生产的体系,全面xx市的复工复产,客户提出了较高的要求,希望我们做到3端到全链路监控,并通过产品能第一时间的发现问题,辅助定位问题。
外:友商跃跃欲试、虎视眈眈的盯着我们犯错,把错误无限放大。所以说在重保期间,要做好产品自身的稳定性建设,产品自身不要出问题,或者说是出现了问题我们能第一时间发现并解决。
全链路监控方案建设:
1、前期梳理
架构梳理
输入:清楚客户现有的业务链路,从各个业务开始端到后端业务走过的业务流,各个业务链路上应用开发语言、框架、QPS评估。
输出:确定ACOS的部署架构,各个应用的监控手段、监控覆盖范围。
关键接口梳理
输入:应用的拓扑架构,各个应用核心的业务接口、使用中间件情况、核心应用部署的服务器。
输出:大屏、中屏的基础设计
故障等级梳理
输入:应用的拓扑架构,各个应用核心的业务接口、使用中间件情况、核心应用部署的服务器。
输出:大屏、中屏、小屏的基础设计
2、建设方案
全链路方案——通过全链路监控平台实现客户业务平台1、业务平台2监控运维的数字化、标准化、统一化,使后端业务系统的性能看得见、异常告得出来、问题定位到。
平台业务APP端到端监控方案——客户不仅需要从平台之前的全景监控同时需要对各个应用监控,平台应用的监控主要涉及网络保障、分钟级监控、监控范围包括应用所有服务调用、需要支持各种渠道告警。
图-应用监控探针对接图
3、全景观测、实时告警、故障紧急预案
全景观测至——根据实际情况的考查结果后续以小屏、中屏、大屏建立三屏一体的可观测体系。
面对在客户平台每日阶段性业务访问暴增问题,制定应急预案并且规范执行是产品稳定性重要保证。
Step1:部署架构资源规格与配置项检查来保障资源的稳定支持。
Step2:敲定变更以及变更的统一负责来避免执行带来不必要系统故障;整理各组件重要一级指标实时监控盯盘。
Step3:制定大促保障作战手册并规范执行。
结果与价值
此次的建设方案再一次证明了可观测产品及安全生产解决方案可行性和有效性,成为业务战略落地的有效手段。利用此次战略为至高点,为全国范围的大数据场景打造可观测样板间;客户亲眼见证了我们讲述的可观测解决方案运用到成功的落地,并帮助客户在保障业务健康稳定运行。让客户和前线看到了安全生产的价值,坚定了信心,也为后续的客户落地提供最佳实践参考,让我们对未来通过安全生产做出客户价值更加笃定。
结束语
观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。