ACOS统一监控之自动化巡检

文静11个月前最新动态308

作者:晓风

引言

随着信息技术的发展和普及,企业的 IT 系统已经成为企业运营的重要组成部分。在这些系统中,应用程序和服务的可用性和性能对业务运营至关重要。然而,IT 系统的复杂性和规模,以及 IT 运维团队的人力和时间限制,使得系统的巡检和维护变得更加困难。自动化巡检这种技术的出现,可以帮助 IT 运维团队更快、更准确地检测和分析系统的健康状况和性能问题,从而提高系统的可用性和可靠性。

自动化巡检功能的优势

  1. 提高系统可用性:自动化巡检可以帮助 IT 运维团队及时检测和修复潜在的故障和问题,从而提高系统的可用性和可靠性。

  2. 提高工作效率:自动化巡检可以自动化和简化巡检流程,减少人工干预和错误,提高 IT 运维团队的工作效率和生产力。

  3. 明确系统状况:自动化巡检可以提供详细的系统分析和报告,帮助 IT 运维团队清楚地了解系统的状况和问题,并采取相应的措施进行修复和优化。

  4. 降低风险和成本:自动化巡检可以帮助 IT 运维团队及时发现和修复潜在的故障和问题,从而降低系统故障和性能问题的风险,并降低维护成本和时间成本。


ACOS自动化巡检功能的实现

具体包含以下模块:

①控制台提供接口给前端页面调用,创建巡检任务、巡检模板、通知规则,巡检任务管理,巡检模板管理,巡检报告查看。

②储存模块负责存储巡检模板、巡检任务、巡检记录等数据。

③时序数据模块负责存储机器性能指标数据。

④巡检引擎模块负责调度巡检任务,从数据源读取指标数据进行计算,生成巡检报告。

⑤巡检报告发送模块根据配置的通知规则,把报告发送到指定的通知渠道。

系统架构图如下:

                                   

image.png

ACOS自动化巡检功能介绍

  • 巡检模板定义

如下图所示,包含模板名字、模板描述、模板标签(用于模板管理页面筛选)、文档属性(用于定义生成报告的封面、页眉、页脚文案)、发送方式(支持自动发送和手动发送两种方式)、发送渠道(支持钉钉、企业微信、邮件、短信)。


                                                

image.png


  • 巡检模板内容配置

巡检模板可以添加多个巡检指标。如下图所示,巡检系统CPU使用率指标,定义指标的查询参数:查询时间范围、别名、计算方式(平均值)、监控对象、分组(实例)等。定义分析规则:如果全部曲线的所有采样点(部分曲线的所有采样点/全部曲线的部分采样点/部分曲线的部分采样点),大于等于(大于/小于/小于等于/等于/不等于)90%,提示(用户自定义信息):全部实例CPU使用率>=90%。分析规则可以定义多条,满足任意一条分析规则,终止继续计算匹配,分析结果以当前匹配的分析规则为准,分析的结果信息将展示在巡检报告上。如果所有分析规则都没有匹配成功,则提示用户自定义文本内容

image.png

image.png


  • 巡检模板管理

巡检模板创建完成后,通过巡检模板管理可以编辑、导入、导出、删除等操作,也可以直接基于选中的模板生成报告

image.png

  • 生成报告

基于巡检模板可以生成巡检报告,支持两种模式:立即生成和设置定时任务生成。如下图所示,设置定时任务,设置自定义执行频率,固定的频率生成报告并发送。

image.png

  • 报告管理

如下图所示,生成的报告记录可以在此进行查看,发送,导出pdf报告,以及删除,也可以查看报告的生成的状态,成功或失败。生成报告的定时任务可以查看、编辑、删除。

image.png

  • 报告查看:

image.pngimage.png

image.png




总结

ACOS统一监控平台可以有效的帮助企业提高运维效率 、提升系统可用率 、降低IT成本,欢迎企业预约演示或者试用。


相关文章

深度解读|云掣《云运维服务白皮书》全方位解析!

深度解读|云掣《云运维服务白皮书》全方位解析!

如今全球各行各业纷纷进行数字化变革,为适应数字经济环境下企业生存发展和市场变化的需要,企业选择进行主动的、系统性、整体性的数字化转型升级。大数据、云计算、人工智能、区块链等新一代信息通信技术为企业的数...

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

阿里云再度携手袋鼠云,重磅联合发布ACOS统一运维监控平台

1月13日,袋鼠云旗下数据化运维子公司云掣科技与阿里云再度签署战略合作协议,阿里云智能云原生应用平台负责人丁宇(花名:叔同)、阿里云云原生PaaS负责人张军(花名:游骥)、阿里云智能云原生可观测负责人...

ACOS可观测运维套件—容器监控

ACOS可观测运维套件—容器监控

一、简介ACOS统一运维监控平台最新4.0版本支持容器能力,对于容器数据采集成功后会上报到控制台「容器监控」,您可以查看到租户内容器各种对象的数据信息。容器数据有两种查看和分析模式,通过切换页面左上角...

可观测领域系列之存储分析鉴赏Talk(Part 1)

可观测领域系列之存储分析鉴赏Talk(Part 1)

前面有文章也提到过,可观测领域目前尚存的一些短板,其中存储分析就是其一,只能根据过往的一些经验,以及调研分析来尝试帮大家鉴赏下当前这个领域的一些技术和竞品分析。在分析这个问题之前,我们先从场景出发,以...

大数据基础之Hive入门介绍

大数据基础之Hive入门介绍

一、什么是HiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数...

ACOS统一监控之达梦数据采集

ACOS统一监控之达梦数据采集

署名-汪勇(苏夏)一、前言基于目前的互联网环境趋势和国家的倡导,在将来软件基础新的工具或应用国产化是一大方向。而在运维可视化这个行业来说,我们ACOS产品也是需要达梦数据的运行状态做一定的监控,从而完...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。