ACOS统一监控之自动化巡检

文静2年前最新动态901

作者:晓风

引言

随着信息技术的发展和普及,企业的 IT 系统已经成为企业运营的重要组成部分。在这些系统中,应用程序和服务的可用性和性能对业务运营至关重要。然而,IT 系统的复杂性和规模,以及 IT 运维团队的人力和时间限制,使得系统的巡检和维护变得更加困难。自动化巡检这种技术的出现,可以帮助 IT 运维团队更快、更准确地检测和分析系统的健康状况和性能问题,从而提高系统的可用性和可靠性。

自动化巡检功能的优势

  1. 提高系统可用性:自动化巡检可以帮助 IT 运维团队及时检测和修复潜在的故障和问题,从而提高系统的可用性和可靠性。

  2. 提高工作效率:自动化巡检可以自动化和简化巡检流程,减少人工干预和错误,提高 IT 运维团队的工作效率和生产力。

  3. 明确系统状况:自动化巡检可以提供详细的系统分析和报告,帮助 IT 运维团队清楚地了解系统的状况和问题,并采取相应的措施进行修复和优化。

  4. 降低风险和成本:自动化巡检可以帮助 IT 运维团队及时发现和修复潜在的故障和问题,从而降低系统故障和性能问题的风险,并降低维护成本和时间成本。


ACOS自动化巡检功能的实现

具体包含以下模块:

①控制台提供接口给前端页面调用,创建巡检任务、巡检模板、通知规则,巡检任务管理,巡检模板管理,巡检报告查看。

②储存模块负责存储巡检模板、巡检任务、巡检记录等数据。

③时序数据模块负责存储机器性能指标数据。

④巡检引擎模块负责调度巡检任务,从数据源读取指标数据进行计算,生成巡检报告。

⑤巡检报告发送模块根据配置的通知规则,把报告发送到指定的通知渠道。

系统架构图如下:

                                   

image.png

ACOS自动化巡检功能介绍

  • 巡检模板定义

如下图所示,包含模板名字、模板描述、模板标签(用于模板管理页面筛选)、文档属性(用于定义生成报告的封面、页眉、页脚文案)、发送方式(支持自动发送和手动发送两种方式)、发送渠道(支持钉钉、企业微信、邮件、短信)。


                                                

image.png


  • 巡检模板内容配置

巡检模板可以添加多个巡检指标。如下图所示,巡检系统CPU使用率指标,定义指标的查询参数:查询时间范围、别名、计算方式(平均值)、监控对象、分组(实例)等。定义分析规则:如果全部曲线的所有采样点(部分曲线的所有采样点/全部曲线的部分采样点/部分曲线的部分采样点),大于等于(大于/小于/小于等于/等于/不等于)90%,提示(用户自定义信息):全部实例CPU使用率>=90%。分析规则可以定义多条,满足任意一条分析规则,终止继续计算匹配,分析结果以当前匹配的分析规则为准,分析的结果信息将展示在巡检报告上。如果所有分析规则都没有匹配成功,则提示用户自定义文本内容

image.png

image.png


  • 巡检模板管理

巡检模板创建完成后,通过巡检模板管理可以编辑、导入、导出、删除等操作,也可以直接基于选中的模板生成报告

image.png

  • 生成报告

基于巡检模板可以生成巡检报告,支持两种模式:立即生成和设置定时任务生成。如下图所示,设置定时任务,设置自定义执行频率,固定的频率生成报告并发送。

image.png

  • 报告管理

如下图所示,生成的报告记录可以在此进行查看,发送,导出pdf报告,以及删除,也可以查看报告的生成的状态,成功或失败。生成报告的定时任务可以查看、编辑、删除。

image.png

  • 报告查看:

image.pngimage.png

image.png




总结

ACOS统一监控平台可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本,欢迎企业预约演示或者试用。


相关文章

袋鼠云秋季发布会圆满落幕,AI驱动让生产力数智化

袋鼠云秋季发布会圆满落幕,AI驱动让生产力数智化

在当今时代,AI 的发展如汹涌浪潮,其速度之快超越了任何历史时期。它以前所未有的迅猛之势,渗入到各个领域的不同场景之中,悄然重塑着商业模式与人们的生活方式。在 AI 逐渐成为企业基础属性的背景下,袋鼠...

从模拟数据到场景复现,剖析 MySQL Online DDL 异常报错之谜

从模拟数据到场景复现,剖析 MySQL Online DDL 异常报错之谜

本文从模拟数据到场景复现,深入浅出的分享了 MySQL 在线 DDL 变更误触报错的原因分析和解决方案,以减少或避免在Online DDL操作中误触发异常错误,提高数据库变更的成功率,希望能对遇到相似...

云掣科技亮相2024云栖大会,让用云更简单、更安全

云掣科技亮相2024云栖大会,让用云更简单、更安全

2024年云栖大会于9月19日-9月21日召开,今年大会以“云启智跃,产业蝶变”为主题,吸引大模型、自动驾驶、机器人等领域的400多家国内外企业来到现场,共同展示AI时代云上创新的潮流科技。大会设置了...

袋鼠云CEO宁海元:打通数智基建到应用的通路,让数据不再“躺灰” | 数据猿专访

袋鼠云CEO宁海元:打通数智基建到应用的通路,让数据不再“躺灰” | 数据猿专访

一家大型制造企业的老板最近心情颇为复杂。几年前,企业投入巨资构建数据存储和治理系统,如今数据确实源源不断地积累,但他发现,这些数据似乎并没有带来预期的业务收益。虽然存储成本逐年攀升,但数据依旧沉睡在系...

深度解读|云掣《云运维服务白皮书》全方位解析!

深度解读|云掣《云运维服务白皮书》全方位解析!

如今全球各行各业纷纷进行数字化变革,为适应数字经济环境下企业生存发展和市场变化的需要,企业选择进行主动的、系统性、整体性的数字化转型升级。大数据、云计算、人工智能、区块链等新一代信息通信技术为企业的数...

大数据基础之Hive入门介绍

大数据基础之Hive入门介绍

一、什么是HiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。