可观测运维作战实践-ACOS全链路监控案例

文静1年前客户案例763


在时间十分紧迫前提下为客户建设一套监控体系实践就是一次作战!下面问题怎么解呢?


1、客户现状痛点?

2、适合客户全链路监控怎么搭建?

3、故障突袭应急筹备方案?

4、acos团队面临内外夹击挑战?

5、作战结果与价值?


阐述背景

        XX市新型冠状病毒肺炎疫情防控工作领导小组办公室下发《关于我市持续巩固疫情防控成果有序复工复产的实施方案》,明确XX全面复工复产时间点和任务安排,XX大数据中心要求防疫相关的扫码等服务系统务必保证稳定性,支撑XX人民有序复工复产。

        复工复产迫在眉急,加固“xx码”“xx码”等服务系统稳定性。确保全xx市民众通过xx码有序复工复产。成为xx市大数据中心当前重保的第一要务。


客户痛点沟通

  • 故障频发,且系统出现问题后无法及时发现,更多依赖人工上报和客诉,系统瓶颈点不知道在哪 里,流量一上来就挂。

  • 客户xx系统复杂、底层服务厂商众多,缺少端到端的全链路监控工具,出现故障后定位问题困难。

  • 故障发生后,应急处理无系统、无体系、无机制,协同各厂商处理故障时,各厂商相互推责,扯皮,最终归根到网络上,影响故障恢复时长。


客户需求了解

  • 保障xx系统核心业务1、核心业务2的稳定性,实现业务丝滑顺畅,有效支撑全xx民众通过xx码有序的复工复产;

  • 第一时间发现问题,发现问题时及时响应、快速故障定因、定位、定责,形成标准化的梯队,确保故障快速发现,快速恢复。


acos团队内外挑战:

  • 内:接到任务,仅有1个月不到时间,通过ACOS的产品能力和安全生产的体系,全面xx市的复工复产,客户提出了较高的要求,希望我们做到3端到全链路监控,并通过产品能第一时间的发现问题,辅助定位问题。

  • 外:友商跃跃欲试、虎视眈眈的盯着我们犯错,把错误无限放大。所以说在重保期间,要做好产品自身的稳定性建设,产品自身不要出问题,或者说是出现了问题我们能第一时间发现并解决。


全链路监控方案建设:

1、前期梳理

  • 架构梳理

输入:清楚客户现有的业务链路,从各个业务开始端到后端业务走过的业务流,各个业务链路上应用开发语言、框架、QPS评估。

输出:确定ACOS的部署架构,各个应用的监控手段、监控覆盖范围。

  • 关键接口梳理

输入:应用的拓扑架构,各个应用核心的业务接口、使用中间件情况、核心应用部署的服务器。

输出:大屏、中屏的基础设计

  • 故障等级梳理

输入:应用的拓扑架构,各个应用核心的业务接口、使用中间件情况、核心应用部署的服务器。

输出:大屏、中屏、小屏的基础设计


2、建设方案


全链路方案——通过全链路监控平台实现客户业务平台1、业务平台2监控运维的数字化、标准化、统一化,使后端业务系统的性能看得见、异常告得出来、问题定位到。

aa.png



平台业务APP端到端监控方案——客户不仅需要从平台之前的全景监控同时需要对各个应用监控,平台应用的监控主要涉及网络保障、分钟级监控、监控范围包括应用所有服务调用、需要支持各种渠道告警。


2.png

图-应用监控探针对接图


3、全景观测、实时告警、故障紧急预案

全景观测至——根据实际情况的考查结果后续以小屏、中屏、大屏建立三屏一体的可观测体系。

2.png

面对在客户平台每日阶段性业务访问暴增问题,制定应急预案并且规范执行是产品稳定性重要保证。

Step1:部署架构资源规格与配置项检查来保障资源的稳定支持。

3.png

Step2:敲定变更以及变更的统一负责来避免执行带来不必要系统故障;整理各组件重要一级指标实时监控盯盘。

Step3:制定大促保障作战手册并规范执行。

6.png



结果与价值

此次的建设方案再一次证明了可观测产品及安全生产解决方案可行性和有效性,成为业务战略落地的有效手段。利用此次战略为至高点,为全国范围的大数据场景打造可观测样板间;客户亲眼见证了我们讲述的可观测解决方案运用到成功的落地,并帮助客户在保障业务健康稳定运行。让客户和前线看到了安全生产的价值,坚定了信心,也为后续的客户落地提供最佳实践参考,让我们对未来通过安全生产做出客户价值更加笃定。


结束

观测运维套件-ACOS可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本。欢迎企业预约演示或者试用。

标签: 可观测运维

相关文章

深度解读|云掣《云运维服务白皮书》全方位解析!

深度解读|云掣《云运维服务白皮书》全方位解析!

如今全球各行各业纷纷进行数字化变革,为适应数字经济环境下企业生存发展和市场变化的需要,企业选择进行主动的、系统性、整体性的数字化转型升级。大数据、云计算、人工智能、区块链等新一代信息通信技术为企业的数...

在经济低迷时管理云服务的策略!

近几年全球经济在疫情等各方面影响之下持续低迷,Wanclouds公司发布的一份研究报告指出,81%的美国IT领导者表示,他们的首席执行官要求他们减少或者不增加云计算支出。事实上,在那些被要求削减成本的...

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

1月13日,袋鼠云旗下数据化运维子公司云掣科技与阿里云再度签署战略合作协议,阿里云智能云原生应用平台负责人丁宇(花名:叔同)、阿里云云原生PaaS负责人张军(花名:游骥)、阿里云智能云原生可观测负责人...

IDC:疫情下,第三方云管理服务市场逆势增长!

IDC:疫情下,第三方云管理服务市场逆势增长!

IDC预测,中国第三方云管理服务在2019年到2023年间将保持54.7%的增长率,2023年市场规模预计达到32.1亿美元。2019年第三方云管理服务市场呈现出如下特点:云管理服务成为众多服务商的战...

Gartner权威报告解读|应用可观测性列为2023年重要战略技术趋势!

Gartner于今日发布企业机构在2023年需要探索的十大战略技术趋势。Gartner杰出研究副总裁Frances Karamouzis表示:“为了在经济动荡时期增加企业机构的盈利,首席信息官和IT高...

运维监控体系总结

总结归纳运维工作中的监控内容。监控目标:明白监控的重要性以及使用监控要实现的业务目标通常包括以下三点:对目标系统进行实时监控监控可以实时反馈目标系统的当前状态 目标系统硬件、软件、业务是否正常、目前处...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。