Zeppelin简介
1. Zeppelin
1.1. Zeppelin是什么
zeppelin是一个非常流行的开源数据探索分析平台。zeppelin集成了非常多的数据处理和分析相关的组件,其核心组织概念是notebook,所有的操作都可以在notebook中完成,官网的原话是“The Notebook is the place for all yourneeds”。
1.2. Zeppelin能干什么
l 运行scala代码
l 运行sparksql
l 拥有非常强大的可视化功能,可以对数据进行探索分析
l 运行结果方便导出
l 支持接入多种数据处理引擎,如spark,hive等
1.3. Zeppelin支持哪些组件
Postgres、MySQL、MariaDB、Hive、Presto/Trino、Impala、Spark
但主要以spark为主,其在支持spark程序的多样性上有非常优秀的展现
1.4. Zeppelin和Hue的的异同
1.4.1. 功能
(1)Zeppelin和Hue都能提供一定的数据查询和可视化的功能,都提供了多种图形化数据表示形式。
(2)Zeppelin支持的后端数据查询程序较多。
(3)Zeppelin只提供了单一的数据处理功能,包括上文提到的数据提取、数据发现、数据分析、数据可视化等都属于数据处理的范畴。
而Hue的功能相对丰富的多,除了类似的数据处理,还有元数据管理、Oozie工作流管理、作业管理、用户管理、Sqoop集成等很多管理功能。
从这点看,Zeppelin只是一个数据处理工具,而Hue更像是一个综合管理工具。
1.4.2. 架构
(1)Zeppelin采用插件式的解释器,通过插件开发,可以添加任何后端语言和数据处理程序。相对来说更独立和开放。
(2)Hue与Hadoop生态圈的其它组件密切相关,很多业界的商用大数据产品都集成了Hue。
1.4.3. 使用场景
(1)Zeppelin适合单一数据处理、但后端处理语言繁多的场景,尤其适合Spark。
(2)Hue适合与Hadoop集群的多个组件交互、如Oozie工作流、Sqoop等联合处理数据的场景,尤其适合与Impala协同工作。