ACOS统一监控之自动化巡检

文静1年前最新动态596

作者:晓风

引言

随着信息技术的发展和普及,企业的 IT 系统已经成为企业运营的重要组成部分。在这些系统中,应用程序和服务的可用性和性能对业务运营至关重要。然而,IT 系统的复杂性和规模,以及 IT 运维团队的人力和时间限制,使得系统的巡检和维护变得更加困难。自动化巡检这种技术的出现,可以帮助 IT 运维团队更快、更准确地检测和分析系统的健康状况和性能问题,从而提高系统的可用性和可靠性。

自动化巡检功能的优势

  1. 提高系统可用性:自动化巡检可以帮助 IT 运维团队及时检测和修复潜在的故障和问题,从而提高系统的可用性和可靠性。

  2. 提高工作效率:自动化巡检可以自动化和简化巡检流程,减少人工干预和错误,提高 IT 运维团队的工作效率和生产力。

  3. 明确系统状况:自动化巡检可以提供详细的系统分析和报告,帮助 IT 运维团队清楚地了解系统的状况和问题,并采取相应的措施进行修复和优化。

  4. 降低风险和成本:自动化巡检可以帮助 IT 运维团队及时发现和修复潜在的故障和问题,从而降低系统故障和性能问题的风险,并降低维护成本和时间成本。


ACOS自动化巡检功能的实现

具体包含以下模块:

①控制台提供接口给前端页面调用,创建巡检任务、巡检模板、通知规则,巡检任务管理,巡检模板管理,巡检报告查看。

②储存模块负责存储巡检模板、巡检任务、巡检记录等数据。

③时序数据模块负责存储机器性能指标数据。

④巡检引擎模块负责调度巡检任务,从数据源读取指标数据进行计算,生成巡检报告。

⑤巡检报告发送模块根据配置的通知规则,把报告发送到指定的通知渠道。

系统架构图如下:

                                   

image.png

ACOS自动化巡检功能介绍

  • 巡检模板定义

如下图所示,包含模板名字、模板描述、模板标签(用于模板管理页面筛选)、文档属性(用于定义生成报告的封面、页眉、页脚文案)、发送方式(支持自动发送和手动发送两种方式)、发送渠道(支持钉钉、企业微信、邮件、短信)。


                                                

image.png


  • 巡检模板内容配置

巡检模板可以添加多个巡检指标。如下图所示,巡检系统CPU使用率指标,定义指标的查询参数:查询时间范围、别名、计算方式(平均值)、监控对象、分组(实例)等。定义分析规则:如果全部曲线的所有采样点(部分曲线的所有采样点/全部曲线的部分采样点/部分曲线的部分采样点),大于等于(大于/小于/小于等于/等于/不等于)90%,提示(用户自定义信息):全部实例CPU使用率>=90%。分析规则可以定义多条,满足任意一条分析规则,终止继续计算匹配,分析结果以当前匹配的分析规则为准,分析的结果信息将展示在巡检报告上。如果所有分析规则都没有匹配成功,则提示用户自定义文本内容

image.png

image.png


  • 巡检模板管理

巡检模板创建完成后,通过巡检模板管理可以编辑、导入、导出、删除等操作,也可以直接基于选中的模板生成报告

image.png

  • 生成报告

基于巡检模板可以生成巡检报告,支持两种模式:立即生成和设置定时任务生成。如下图所示,设置定时任务,设置自定义执行频率,固定的频率生成报告并发送。

image.png

  • 报告管理

如下图所示,生成的报告记录可以在此进行查看,发送,导出pdf报告,以及删除,也可以查看报告的生成的状态,成功或失败。生成报告的定时任务可以查看、编辑、删除。

image.png

  • 报告查看:

image.pngimage.png

image.png




总结

ACOS统一监控平台可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本,欢迎企业预约演示或者试用。


相关文章

深度解读|云掣《云运维服务白皮书》全方位解析!

深度解读|云掣《云运维服务白皮书》全方位解析!

如今全球各行各业纷纷进行数字化变革,为适应数字经济环境下企业生存发展和市场变化的需要,企业选择进行主动的、系统性、整体性的数字化转型升级。大数据、云计算、人工智能、区块链等新一代信息通信技术为企业的数...

云掣科技亮相2024云栖大会,让用云更简单、更安全

云掣科技亮相2024云栖大会,让用云更简单、更安全

2024年云栖大会于9月19日-9月21日召开,今年大会以“云启智跃,产业蝶变”为主题,吸引大模型、自动驾驶、机器人等领域的400多家国内外企业来到现场,共同展示AI时代云上创新的潮流科技。大会设置了...

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

1月13日,袋鼠云旗下数据化运维子公司云掣科技与阿里云再度签署战略合作协议,阿里云智能云原生应用平台负责人丁宇(花名:叔同)、阿里云云原生PaaS负责人张军(花名:游骥)、阿里云智能云原生可观测负责人...

袋鼠云CEO宁海元:打通数智基建到应用的通路,让数据不再“躺灰” | 数据猿专访

袋鼠云CEO宁海元:打通数智基建到应用的通路,让数据不再“躺灰” | 数据猿专访

一家大型制造企业的老板最近心情颇为复杂。几年前,企业投入巨资构建数据存储和治理系统,如今数据确实源源不断地积累,但他发现,这些数据似乎并没有带来预期的业务收益。虽然存储成本逐年攀升,但数据依旧沉睡在系...

大数据基础之Hive入门介绍

大数据基础之Hive入门介绍

一、什么是HiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数...

袋鼠云港口数智化解决方案发布,数智引领,加速“智变”

袋鼠云港口数智化解决方案发布,数智引领,加速“智变”

2023年12月,交通运输部印发《关于加快智慧港口和智慧航道建设的意见》,《意见》贯穿了“3条主线”,其中最首要的主线是“数字化”,数字化是基础,必须通过数字赋能建设、生产、运营、管理、服务的全要素、...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。