Zeppelin简介

南墨1年前技术文章547

1.    Zeppelin

1.1.  Zeppelin是什么

zeppelin是一个非常流行的开源数据探索分析平台。zeppelin集成了非常多的数据处理和分析相关的组件,其核心组织概念是notebook,所有的操作都可以在notebook中完成,官网的原话是“The Notebook is the place for all yourneeds”。

1.2.  Zeppelin能干什么

l   运行scala代码

l   运行sparksql

l   拥有非常强大的可视化功能,可以对数据进行探索分析

l   运行结果方便导出

l   支持接入多种数据处理引擎,如spark,hive等

1.3.  Zeppelin支持哪些组件

Postgres、MySQL、MariaDB、Hive、Presto/Trino、Impala、Spark

但主要以spark为主,其在支持spark程序的多样性上有非常优秀的展现

1.4.  Zeppelin和Hue的的异同

1.4.1.   功能

(1)Zeppelin和Hue都能提供一定的数据查询和可视化的功能,都提供了多种图形化数据表示形式。

(2)Zeppelin支持的后端数据查询程序较多。

(3)Zeppelin只提供了单一的数据处理功能,包括上文提到的数据提取、数据发现、数据分析、数据可视化等都属于数据处理的范畴。

而Hue的功能相对丰富的多,除了类似的数据处理,还有元数据管理、Oozie工作流管理、作业管理、用户管理、Sqoop集成等很多管理功能。

从这点看,Zeppelin只是一个数据处理工具,而Hue更像是一个综合管理工具。

1.4.2.   架构

(1)Zeppelin采用插件式的解释器,通过插件开发,可以添加任何后端语言和数据处理程序。相对来说更独立和开放。

(2)Hue与Hadoop生态圈的其它组件密切相关,很多业界的商用大数据产品都集成了Hue。

1.4.3.   使用场景

(1)Zeppelin适合单一数据处理、但后端处理语言繁多的场景,尤其适合Spark。

(2)Hue适合与Hadoop集群的多个组件交互、如Oozie工作流、Sqoop等联合处理数据的场景,尤其适合与Impala协同工作。



相关文章

MySQL 通过 MTS 多线程恢复增量日志备份

MySQL 通过 MTS 多线程恢复增量日志备份

一、前言当发生 DDL 误删数据时,只能通过 备份 + 增量日志 来恢复,备份恢复到新实例后,将增量日志备份进行应用,此时只能单线程效率不高,我们可以使用 MySQL 5.7 推出的 MTS 多线程复...

静默安装oracle11g单实例

环境: CentOS 7.8 11.2.0.4.0 orclp:172.16.104.31一、准备1、依赖包检查pdksh 在 redhat 上叫 ksh检查是否有安装root# rpm -q bin...

trino组件对接hudi(四)

trino组件对接hudi(四)

安装部署本文是基于已经部署了trino组件的环境上,进行的trino和hudi的对接,使trino组件能够正常查询hudi表。1、增加hudi connector配置在trino安装部署下的etc/c...

shell脚本-expect

shell脚本-expect

一、概述       Expect是建立在tcl基础上的一个工具,Expect 是用来进行自动化控制和测试的工具。主要解决shell脚本中不可交互的问题。       在一些需要交互输入指令的场景下,...

系统RDSCPU打满问题分析报告

系统RDSCPU打满问题分析报告

1. 问题概述在2023年9月01日09点13分,玳数运维组侧接收到业务侧反馈系统响应缓慢,与此同时运维群内新系统RDS 发出CPU打满的告警,告警通知如下: 2. 问题分析a. 数据库会话管理核查玳...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。