ACOS统一监控-医保交付案例

文静1年前客户案例551


1.项目背景

目前某省会级医保信息系统全面上线,系统采用医疗保障应用框架HSAF,该框架推动平台从集中式走向分布式,统一了应用框架。医保信息系统正式上线后,需要服务医保定点机构,市民医保结算及大量的业务应用开发商,复杂的架构及部署环境给系统运维、业务运维人员带来了不小的挑战。现场大量与业务相关的问题无法及时精准的告警,问题出现后由于缺乏端到端的全链路监控工具,定位问题只能靠经验和人肉排查,导致无法准确定位根因。同时医保信息平台架构和业务流转涉及跨团队协作,各团队、厂商未明确故障应急管理机制和角色职责SLA,当发生问题后无法快速部署故障恢复策略。因为缺乏精细化的度量体系及平台,导致对ISV厂商的管理及评价困难。总而言之复杂的运维环境以及低效的流程和工具给医保局业务系统的稳定运行造成很大困扰。

D4CADCF0-791D-48E4-B5CC-83162100F23C.png

2.建设目标

医保应用性能分析平台系统采用“数据采集/数据汇总/数据处理/数据展示”的层级设计。提供多维度、多业务、高自定义、高精确性的数据展现功能,为医疗保障局提供一站式决策支持的管理信息中心系统,形成统一的数据集成中心,提升医保业务连续性。从框架、业务、资源、机制、高可用平台能力等多个环节进行规范化和标准化运营;帮助业务人员和运维人员建立全链路监控能力,快速感知故障,缩短问题响应时间。实现业务系统运行的触点数字化改造,建立业务系统绩效数据的动态化监视能力,构建驾驶舱展示框架。在精准展示数据的基础上,反哺各基础业务模块、提升业务短板、降低运营成本,同时提升医保参保用户的服务体验。

3.建设方案

7951DD8F-B4F1-4976-B934-FD6CBFF1D3E1.png

1) 小屏:遵循故障管理体系中的故障分级规范,梳理核心业务根据其重要程度、影响面及业务体量进行故障定级和告警配置;建立P1-P4的应急响应群,精确推送告警到对应的响应群里。

流程.png

2) 中屏:面向ISV研发和运维人员,从业务到应用到中间件到基础设施端到端的全链路监控分析,辅助定位问题;针对于应用层、资源层,数据层,各提供一个中屏,用来做从业务->应用->接口->数据库->基础设施的端到端的全链路监控。

5F98A575-E8C9-4BD8-BD11-FE56E38A7858.png

3) 大屏:大屏主要面向部门领导,用于对应用的全链路指标进行呈现,支撑领导进行协调决策,通过大屏可以看到所有应用关键指标、应用是否有问题、问题出在哪里、问题谁在处理、问题是否已经解决?

da.png

4.项目保障

4.1建立故障应急机制:

建立由运维团队、应急处理人和指挥人等协调人员组成,从问题发现上报-故障通告-故障处理-故障复盘的规范流程机制,保障业务系统安全生产。

FB0B03AE-1B12-47D0-864E-B9F6760F62BC.png

4.2建立故障复盘机制:

由值班人员或应急决策人在故障恢复后的2-5天内发起故障复盘,故障复盘需要从流程机制层面、质量检验层面、产品业务层面、系统设计层面提出"为什么?,为什么会发生?为什么没有验证发现?有没有防御机制?如何避免再次发生?有没有改进点?"。

6FBC09B2-3386-4BF7-AC58-60794DB9626E.png

5.项目交付

这些都需要我们的交付专家团队,在整体指导原则基础上,再结合以往的经验,来协助客户实现价值。整体交付过程需要按照定基线->串流程->明权责三步走指导原则来执行。逐步的把这三步做到了才能真正的才能做到授之以渔,让客户自己就能把这套东西给用起来。

8B070A2A-5A58-4F07-8D5C-C3DC8DB1B8CE.png

结束语借助平台系统能力,有效降低运营成本,同时提升医保参保用户的服务体验,增强参保群众的获得感和幸福感使我们和客户努力的方向。

标签: 可观测运维

相关文章

运维监控体系总结

总结归纳运维工作中的监控内容。监控目标:明白监控的重要性以及使用监控要实现的业务目标通常包括以下三点:对目标系统进行实时监控监控可以实时反馈目标系统的当前状态 目标系统硬件、软件、业务是否正常、目前处...

正式发布 | 《云运维服务白皮书》开放下载!

正式发布 | 《云运维服务白皮书》开放下载!

在全球数字化变革的背景下,为适应数字经济环境下企业生存发展和市场变化的需要,企业进行主动的、系统性、整体性的数字化转型升级。大数据、云计算、人工智能、区块链等新一代信息通信技术为企业的数字化转型提供了...

中国式IT运维,趟出自己的“长期主义”河流

2018年,Gartner曾做过一次长达6个月的调查问卷。在这个主题为AIOps的问卷中,Gartner选取了500家各行业头部的企业,针对其当下的IT架构来判断调研企业未来是否会加大对于AIOps的...

IDC:疫情下,第三方云管理服务市场逆势增长!

IDC:疫情下,第三方云管理服务市场逆势增长!

IDC预测,中国第三方云管理服务在2019年到2023年间将保持54.7%的增长率,2023年市场规模预计达到32.1亿美元。2019年第三方云管理服务市场呈现出如下特点:云管理服务成为众多服务商的战...

可观测运维作战实践-ACOS全链路监控案例

可观测运维作战实践-ACOS全链路监控案例

在时间十分紧迫前提下为客户建设一套监控体系实践就是一次作战!下面问题怎么解呢?1、客户现状痛点?2、适合客户全链路监控怎么搭建?3、故障突袭应急筹备方案?4、acos团队面临内外夹击挑战?5、作战结果...

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

1月13日,袋鼠云旗下数据化运维子公司云掣科技与阿里云再度签署战略合作协议,阿里云智能云原生应用平台负责人丁宇(花名:叔同)、阿里云云原生PaaS负责人张军(花名:游骥)、阿里云智能云原生可观测负责人...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。