大数据自动化巡检系统(一)

楼高2年前技术文章1655

一、产品简介

EasyCare大数据自动化巡检平台是袋鼠云自研的一款大数据集群自动化巡检调优运维平台支持针对各类大数据组件服务接口其他组件等可用性稳定性进行自动巡检实现主动实时监控准确定位问题提供问题修复方法EasyCare根据袋鼠云多年在大数据行业深耕积累的经验提炼出具有针对性的巡检指标成熟稳定提效增质安全可靠

EasyCare作为开源大数据集群的诊断,会自动根据定时周期巡检集群。集群管理员只需要定期查看健康检查报告,并且根据报告中的建议对集群做相应的优化调整,即可全局了解集群的健康状况和动态走势,并保持集群的健康度

EasyCare自动化巡检将被动转化为主动,主动发现服务异常并提供可靠的解决方式,极大程度提升巡检效率、降低巡检人力投入。把传统人工突击抽查巡检方式,升级为全面化、常态化、规范化,提高用户体验及业务支撑能力。

摒弃传统重复手动巡检方式,通过自定义巡检脚本和脚本对象,进行即时性、周期性等巡检工作的自动化执行,并生成标准可视化报告,提效增质,轻松全面掌握运行状态及潜在风险。

二、产品架构

image.png

        三、产品功能模块

        EasyCare提供了基础配置管理、巡检模版管理、任务管理以及报告管理,通过各个维度巡检指标根据业务需求灵活配置巡检模版,根据周期选择配置任务调度周期,巡检结果通过不同类型可导出报表供运维人员查看修复,对于每个巡检指标提供对应的修复指导。

        四、产品核心特性及优势

        4.1 产品提供多集群,多主机灵活巡检

        产品可构建内部集群管理,也可以对接外部集群、主机信息进行巡检

        4.2 巡检指标丰富

       系统目前自带了几乎所有常用大数据组件巡检指标服务器基础层面巡检指标巡检指标易于扩展脚本类型丰富

      4.3 操作界面化

      巡检任务全程在界面操作无需在手动登录主机查看任务巡检完成之后自动收集结果收据分析整理报告一时间帮助运维人员了解服务的运行状态

      4.4 平台通用性

EasyCare目前支持巡检操作系统为SUSE,RedHat,CentOS等所有linux操作系统支持CDH/HDP/CDP/EasyMR等各种大数据集群    

4.5 巡检报告

巡检任务完成之后输出报告,作为隐患明细展示、配置巡检展示。以静态报告形式展示当前集群运行情况以及存在的问题,为运维人员提供基础数据,对巡检隐患进行优化调整,包括推进隐患治理,查看治理效率、趋势、薄弱点等

4.6 安全稳定

数据安全、产品安全是大数据产品需要重点考虑的问题。EasyCare在产品设计中可采用普通用户执行本次巡检任务普通用户所有操作都在tmp临时目录创建自己的执行目录所有巡检结果都会采集到普用用户自己的临时目录。同时所有巡检指标都没有任何删除动作如有创建文件等操作也是在自己临时目录操作





    

    






相关文章

JMS 介绍

JMS 介绍

一、JMS的基础JMS是什么:JMS是Java提供的一套技术规范JMS干什么用:用来异构系统 集成通信,缓解系统瓶颈,提高系统的伸缩性增强系统用户体验,使得系统模块化和组件化变得可行并更加灵活通过什么...

大数据组件Superset

Superset概述Apache Superset 是一个开源的、现代的、轻量级 BI 分析工具,能够对接多种数据源、 拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。Sup...

adg切换(RAC TO SINGLE)

adg切换步骤:1、关闭两节点监听和清理外部链接:su - gridsrvctl stop listenerps -ef|grep LOCAL=NO|awk '{print $2}'|xargs ki...

查看 Redis 不过期 key

查看 Redis 不过期 key

一、使用 Rdbtools 工具包使用 Rdbtools 工具包通过分析备份 rdb 文件,可以查看期间大 key 情况及过期时间情况。输出 csv 文档列信息情况详见下方附件--安装 rdb 工具包...

RabbitMQ 集群部署

RabbitMQ 集群部署

1. 两种模式说到集群,小伙伴们可能第一个问题是,如果我有一个 RabbitMQ 集群,那么是不是我的消息集群中的每一个实例都保存一份呢?这其实就涉及到 RabbitMQ 集群的两种模式:1)普通集群...

ES运维(三)架构与规划(阿里云)

ES运维(三)架构与规划(阿里云)

1、 阿里云Elasticsearch架构图阿⾥云Elasticsearch和Kibana容器化运⾏在ECS中,监控agent(独⽴进程)负责收集监控指标,通过SLS发送给云监控完成监控报警。实例之间...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。