大数据自动化巡检系统(一)
一、产品简介
EasyCare大数据自动化巡检平台是袋鼠云自研的一款大数据集群自动化巡检调优运维平台,支持针对各类大数据组件、服务接口、其他组件等可用性、稳定性进行自动巡检,实现主动实时监控,准确定位问题,提供问题修复方法。EasyCare根据袋鼠云多年在大数据行业深耕积累的经验,提炼出具有针对性的巡检指标,成熟稳定、提效增质、安全可靠。
EasyCare作为开源大数据集群的诊断,会自动根据定时周期巡检集群。集群管理员只需要定期查看健康检查报告,并且根据报告中的建议对集群做相应的优化调整,即可全局了解集群的健康状况和动态走势,并保持集群的健康度。
EasyCare自动化巡检将被动转化为主动,主动发现服务异常并提供可靠的解决方式,极大程度提升巡检效率、降低巡检人力投入。把传统人工突击抽查巡检方式,升级为全面化、常态化、规范化,提高用户体验及业务支撑能力。
摒弃传统重复手动巡检方式,通过自定义巡检脚本和脚本对象,进行即时性、周期性等巡检工作的自动化执行,并生成标准可视化报告,提效增质,轻松全面掌握运行状态及潜在风险。
二、产品架构
三、产品功能模块
EasyCare提供了基础配置管理、巡检模版管理、任务管理以及报告管理,通过各个维度巡检指标根据业务需求灵活配置巡检模版,根据周期选择配置任务调度周期,巡检结果通过不同类型可导出报表供运维人员查看修复,对于每个巡检指标提供对应的修复指导。
四、产品核心特性及优势
4.1 产品提供多集群,多主机灵活巡检
产品可构建内部集群管理,也可以对接外部集群、主机信息进行巡检
4.2 巡检指标丰富
系统目前自带了几乎所有常用大数据组件巡检指标,服务器基础层面巡检指标。巡检指标易于扩展,脚本类型丰富
4.3 操作界面化
巡检任务全程在界面操作,无需在手动登录主机查看任务,巡检完成之后自动收集结果收据,分析整理报告,第一时间帮助运维人员了解服务的运行状态
4.4 平台通用性
EasyCare目前支持巡检操作系统为SUSE,RedHat,CentOS等所有linux操作系统,支持CDH/HDP/CDP/EasyMR等各种大数据集群
4.5 巡检报告
巡检任务完成之后输出报告,作为隐患明细展示、配置巡检展示。以静态报告形式展示当前集群运行情况以及存在的问题,为运维人员提供基础数据,对巡检隐患进行优化调整,包括推进隐患治理,查看治理效率、趋势、薄弱点等
4.6 安全稳定
数据安全、产品安全是大数据产品需要重点考虑的问题。EasyCare在产品设计中可采用普通用户执行本次巡检任务,普通用户所有操作都在tmp临时目录创建自己的执行目录,所有巡检结果都会采集到普用用户自己的临时目录。同时所有巡检指标都没有任何删除动作,如有创建文件等操作也是在自己临时目录操作