ACOS统一监控之自动化巡检
作者:晓风
引言
随着信息技术的发展和普及,企业的 IT 系统已经成为企业运营的重要组成部分。在这些系统中,应用程序和服务的可用性和性能对业务运营至关重要。然而,IT 系统的复杂性和规模,以及 IT 运维团队的人力和时间限制,使得系统的巡检和维护变得更加困难。自动化巡检这种技术的出现,可以帮助 IT 运维团队更快、更准确地检测和分析系统的健康状况和性能问题,从而提高系统的可用性和可靠性。
自动化巡检功能的优势
提高系统可用性:自动化巡检可以帮助 IT 运维团队及时检测和修复潜在的故障和问题,从而提高系统的可用性和可靠性。
提高工作效率:自动化巡检可以自动化和简化巡检流程,减少人工干预和错误,提高 IT 运维团队的工作效率和生产力。
明确系统状况:自动化巡检可以提供详细的系统分析和报告,帮助 IT 运维团队清楚地了解系统的状况和问题,并采取相应的措施进行修复和优化。
降低风险和成本:自动化巡检可以帮助 IT 运维团队及时发现和修复潜在的故障和问题,从而降低系统故障和性能问题的风险,并降低维护成本和时间成本。
ACOS自动化巡检功能的实现
具体包含以下模块:
①控制台提供接口给前端页面调用,创建巡检任务、巡检模板、通知规则,巡检任务管理,巡检模板管理,巡检报告查看。
②储存模块负责存储巡检模板、巡检任务、巡检记录等数据。
③时序数据模块负责存储机器性能指标数据。
④巡检引擎模块负责调度巡检任务,从数据源读取指标数据进行计算,生成巡检报告。
⑤巡检报告发送模块根据配置的通知规则,把报告发送到指定的通知渠道。
系统架构图如下:
ACOS自动化巡检功能介绍
巡检模板定义
如下图所示,包含模板名字、模板描述、模板标签(用于模板管理页面筛选)、文档属性(用于定义生成报告的封面、页眉、页脚文案)、发送方式(支持自动发送和手动发送两种方式)、发送渠道(支持钉钉、企业微信、邮件、短信)。
巡检模板内容配置
巡检模板可以添加多个巡检指标。如下图所示,巡检系统CPU使用率指标,定义指标的查询参数:查询时间范围、别名、计算方式(平均值)、监控对象、分组(实例)等。定义分析规则:如果全部曲线的所有采样点(部分曲线的所有采样点/全部曲线的部分采样点/部分曲线的部分采样点),大于等于(大于/小于/小于等于/等于/不等于)90%,提示(用户自定义信息):全部实例CPU使用率>=90%。分析规则可以定义多条,满足任意一条分析规则,终止继续计算匹配,分析结果以当前匹配的分析规则为准,分析的结果信息将展示在巡检报告上。如果所有分析规则都没有匹配成功,则提示用户自定义文本内容
巡检模板管理
巡检模板创建完成后,通过巡检模板管理可以编辑、导入、导出、删除等操作,也可以直接基于选中的模板生成报告
生成报告
基于巡检模板可以生成巡检报告,支持两种模式:立即生成和设置定时任务生成。如下图所示,设置定时任务,设置自定义执行频率,固定的频率生成报告并发送。
报告管理
如下图所示,生成的报告记录可以在此进行查看,发送,导出pdf报告,以及删除,也可以查看报告的生成的状态,成功或失败。生成报告的定时任务可以查看、编辑、删除。
报告查看:
总结
ACOS统一监控平台可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本,欢迎企业预约演示或者试用。