知名房企数据化可观测运维实践
项目背景
伴随着“云+”时代的到来,通过上云实现企业数字化转型已经成为众多行业的共识。工信部发布的《推动企业上云实施指南(2018—2020年)》一文中提出了企业上云的工作目标,到2020年,云计算要在企业生产、经营、管理中应用并广泛普及,全国新增上云企业100万家。云技术会自上而下、由点到面地部署和应用开来。同理,任何企业都不能对信息化和数字化趋势视而不见。某地产集团有限公司是国内知名企业,专注开发系列城市优质房产品,具有国家一级开发资质,已连续多年名列中国房地产公司品牌价值TOP10,中国房地产百强企业综合实力TOP10,被金融机构评为AAA级信用单位。
业务需求
客户有ERP、BI、OA、CRM等30+业务系统运行在云端,涉及云产品种类较多;随着业务扩展,系统压力越来越大,监控不全面,故障频发,无法快速定位和处理,运维管理面临严峻挑战。
客户急需懂云的运维服务商进行系统维护和治理,基于丰富的企业服务经验和一体化数据化运维管理能力,云掣科技赢得了客户的信赖,承接了客户云业务系统的运维管理工作。
解决方案
专家服务团队对客户的业务系统进行了全面梳理分析,从云资源耗费、网络安全、数据库性能、服务器运行状态、业务稳定性、服务连续性等方面,基于自研数据化运维平台为客户制定了个性化企业运维解决方案:
1、统一接入混合云环境中的网络设备,安全设备,容灾设备,云上资产,应用日志等系统运维数据。
客户的业务一部分在线下IDC机房,一部分业务在公有云环境,基于ACOS实现了运维数据在一个平台的统一管理,从多个维度全面监控系统及业务的运行状态。
2、对接入数据进行清洗解析,格式化处理,根据不同业务场景提取关联数据进行分析。采集器支持丰富的数据源,服务团队分阶段对各系统及设备安装采集器,并将相关数据接入到数据化运维平台,可实时检索分布在不同机房内的多台服务器和其他设备上的日志数据。
3、可视化展现系统访问量,用户访问趋势,模块访问占比,设备电压温度,链路状态,异常感知等关键指标。
4、梳理判断业务健康的核心指标,进行全面监控,添加告警,提前预警,减少故障,为业务保驾护航。
任何异常情况,运维平台都会及时告警给相关负责人员,服务团队以最快的速度响应并处理异常。
5、优化云资源安全规则,定期对系统进行基线加固,修复服务器漏洞。
6、配合业务方进行日常变更,提供云运维服务周报,云资源安全月报。
客户收益
基于云掣提供的数据化可观测运维服务实现了云上云下资源的统一管理,减轻运维压力,降低运营成本。
1、整体业务架构经过细致梳理,形成数据可采集,异常可分析,优化可持续的良性循环,线上业务系统稳定性,安全性以及连续服务能力性得到明显改善。
2、通过体系化监控和运维管理,实现故障发生频率、故障恢复时间、故障影响面3连降,系统可用性提升至99.95%。
该企业将与云掣一起抓住云时代的机遇,利用云技术加速创新,并聚焦于业务模式的丰富拓展。