ACOS统一监控之自动化巡检

文静2年前最新动态797

作者:晓风

引言

随着信息技术的发展和普及,企业的 IT 系统已经成为企业运营的重要组成部分。在这些系统中,应用程序和服务的可用性和性能对业务运营至关重要。然而,IT 系统的复杂性和规模,以及 IT 运维团队的人力和时间限制,使得系统的巡检和维护变得更加困难。自动化巡检这种技术的出现,可以帮助 IT 运维团队更快、更准确地检测和分析系统的健康状况和性能问题,从而提高系统的可用性和可靠性。

自动化巡检功能的优势

  1. 提高系统可用性:自动化巡检可以帮助 IT 运维团队及时检测和修复潜在的故障和问题,从而提高系统的可用性和可靠性。

  2. 提高工作效率:自动化巡检可以自动化和简化巡检流程,减少人工干预和错误,提高 IT 运维团队的工作效率和生产力。

  3. 明确系统状况:自动化巡检可以提供详细的系统分析和报告,帮助 IT 运维团队清楚地了解系统的状况和问题,并采取相应的措施进行修复和优化。

  4. 降低风险和成本:自动化巡检可以帮助 IT 运维团队及时发现和修复潜在的故障和问题,从而降低系统故障和性能问题的风险,并降低维护成本和时间成本。


ACOS自动化巡检功能的实现

具体包含以下模块:

①控制台提供接口给前端页面调用,创建巡检任务、巡检模板、通知规则,巡检任务管理,巡检模板管理,巡检报告查看。

②储存模块负责存储巡检模板、巡检任务、巡检记录等数据。

③时序数据模块负责存储机器性能指标数据。

④巡检引擎模块负责调度巡检任务,从数据源读取指标数据进行计算,生成巡检报告。

⑤巡检报告发送模块根据配置的通知规则,把报告发送到指定的通知渠道。

系统架构图如下:

                                   

image.png

ACOS自动化巡检功能介绍

  • 巡检模板定义

如下图所示,包含模板名字、模板描述、模板标签(用于模板管理页面筛选)、文档属性(用于定义生成报告的封面、页眉、页脚文案)、发送方式(支持自动发送和手动发送两种方式)、发送渠道(支持钉钉、企业微信、邮件、短信)。


                                                

image.png


  • 巡检模板内容配置

巡检模板可以添加多个巡检指标。如下图所示,巡检系统CPU使用率指标,定义指标的查询参数:查询时间范围、别名、计算方式(平均值)、监控对象、分组(实例)等。定义分析规则:如果全部曲线的所有采样点(部分曲线的所有采样点/全部曲线的部分采样点/部分曲线的部分采样点),大于等于(大于/小于/小于等于/等于/不等于)90%,提示(用户自定义信息):全部实例CPU使用率>=90%。分析规则可以定义多条,满足任意一条分析规则,终止继续计算匹配,分析结果以当前匹配的分析规则为准,分析的结果信息将展示在巡检报告上。如果所有分析规则都没有匹配成功,则提示用户自定义文本内容

image.png

image.png


  • 巡检模板管理

巡检模板创建完成后,通过巡检模板管理可以编辑、导入、导出、删除等操作,也可以直接基于选中的模板生成报告

image.png

  • 生成报告

基于巡检模板可以生成巡检报告,支持两种模式:立即生成和设置定时任务生成。如下图所示,设置定时任务,设置自定义执行频率,固定的频率生成报告并发送。

image.png

  • 报告管理

如下图所示,生成的报告记录可以在此进行查看,发送,导出pdf报告,以及删除,也可以查看报告的生成的状态,成功或失败。生成报告的定时任务可以查看、编辑、删除。

image.png

  • 报告查看:

image.pngimage.png

image.png




总结

ACOS统一监控平台可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本,欢迎企业预约演示或者试用。


相关文章

初识MySQL数据库

初识MySQL数据库

数据库首先提问,按照常理来说,什么是数据库呢?不少人想到的一点就是,不就是数据的集合吗?是的,数据库从数据存储方面确实只是数据的集合,但是数据库不只是为了集合数据而存在。如果是为了集合数据,像我们磁盘...

应对复杂架构下的监控挑战?统一运维可观测能力是关键!

在全球数字化变革背景下,企业需适应数字经济与市场变化,进行系统性数字化转型。在“十四五”规划指导下,企业纷纷探求数字化应用之路,大数据、云计算、人工智能、区块链等技术成了热门话题,其中云运维备受瞩目。...

袋鼠云港口数智化解决方案发布,数智引领,加速“智变”

袋鼠云港口数智化解决方案发布,数智引领,加速“智变”

2023年12月,交通运输部印发《关于加快智慧港口和智慧航道建设的意见》,《意见》贯穿了“3条主线”,其中最首要的主线是“数字化”,数字化是基础,必须通过数字赋能建设、生产、运营、管理、服务的全要素、...

指标+AI+BI,袋鼠云构建智能数据分析新范式

指标+AI+BI,袋鼠云构建智能数据分析新范式

10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。作为大会的重要环节之一,袋鼠云数...

大数据基础之Hive入门介绍

大数据基础之Hive入门介绍

一、什么是HiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数...

客户实践案例丨详解如何改造存储表分区,彻底解决Zabbix误告警现象

客户实践案例丨详解如何改造存储表分区,彻底解决Zabbix误告警现象

Zabbix 是一款常用的监控工具,它可以监控网络设备、服务器、应用程序等多种资源的状态。目前,使用 Zabbix 最大的瓶颈是数据库,维护好 Zabbix 的数据存储和告警,就能很好地应用 Zabb...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。