ACOS统一监控-医保交付案例
1.项目背景
目前某省会级医保信息系统全面上线,系统采用医疗保障应用框架HSAF,该框架推动平台从集中式走向分布式,统一了应用框架。医保信息系统正式上线后,需要服务医保定点机构,市民医保结算及大量的业务应用开发商,复杂的架构及部署环境给系统运维、业务运维人员带来了不小的挑战。现场大量与业务相关的问题无法及时精准的告警,问题出现后由于缺乏端到端的全链路监控工具,定位问题只能靠经验和人肉排查,导致无法准确定位根因。同时医保信息平台架构和业务流转涉及跨团队协作,各团队、厂商未明确故障应急管理机制和角色职责SLA,当发生问题后无法快速部署故障恢复策略。因为缺乏精细化的度量体系及平台,导致对ISV厂商的管理及评价困难。总而言之复杂的运维环境以及低效的流程和工具给医保局业务系统的稳定运行造成很大困扰。
2.建设目标
医保应用性能分析平台系统采用“数据采集/数据汇总/数据处理/数据展示”的层级设计。提供多维度、多业务、高自定义、高精确性的数据展现功能,为医疗保障局提供一站式决策支持的管理信息中心系统,形成统一的数据集成中心,提升医保业务连续性。从框架、业务、资源、机制、高可用平台能力等多个环节进行规范化和标准化运营;帮助业务人员和运维人员建立全链路监控能力,快速感知故障,缩短问题响应时间。实现业务系统运行的触点数字化改造,建立业务系统绩效数据的动态化监视能力,构建驾驶舱展示框架。在精准展示数据的基础上,反哺各基础业务模块、提升业务短板、降低运营成本,同时提升医保参保用户的服务体验。
3.建设方案
1) 小屏:遵循故障管理体系中的故障分级规范,梳理核心业务根据其重要程度、影响面及业务体量进行故障定级和告警配置;建立P1-P4的应急响应群,精确推送告警到对应的响应群里。
2) 中屏:面向ISV研发和运维人员,从业务到应用到中间件到基础设施端到端的全链路监控分析,辅助定位问题;针对于应用层、资源层,数据层,各提供一个中屏,用来做从业务->应用->接口->数据库->基础设施的端到端的全链路监控。
3) 大屏:大屏主要面向部门领导,用于对应用的全链路指标进行呈现,支撑领导进行协调决策,通过大屏可以看到所有应用关键指标、应用是否有问题、问题出在哪里、问题谁在处理、问题是否已经解决?
4.项目保障
4.1建立故障应急机制:
建立由运维团队、应急处理人和指挥人等协调人员组成,从问题发现上报-故障通告-故障处理-故障复盘的规范流程机制,保障业务系统安全生产。
4.2建立故障复盘机制:
由值班人员或应急决策人在故障恢复后的2-5天内发起故障复盘,故障复盘需要从流程机制层面、质量检验层面、产品业务层面、系统设计层面提出"为什么?,为什么会发生?为什么没有验证发现?有没有防御机制?如何避免再次发生?有没有改进点?"。
5.项目交付
这些都需要我们的交付专家团队,在整体指导原则基础上,再结合以往的经验,来协助客户实现价值。整体交付过程需要按照定基线->串流程->明权责三步走指导原则来执行。逐步的把这三步做到了才能真正的才能做到授之以渔,让客户自己就能把这套东西给用起来。
结束语:借助平台系统能力,有效降低运营成本,同时提升医保参保用户的服务体验,增强参保群众的获得感和幸福感使我们和客户努力的方向。