Zeppelin简介

南墨2年前技术文章903

1.    Zeppelin

1.1.  Zeppelin是什么

zeppelin是一个非常流行的开源数据探索分析平台。zeppelin集成了非常多的数据处理和分析相关的组件,其核心组织概念是notebook,所有的操作都可以在notebook中完成,官网的原话是“The Notebook is the place for all yourneeds”。

1.2.  Zeppelin能干什么

l   运行scala代码

l   运行sparksql

l   拥有非常强大的可视化功能,可以对数据进行探索分析

l   运行结果方便导出

l   支持接入多种数据处理引擎,如spark,hive等

1.3.  Zeppelin支持哪些组件

Postgres、MySQL、MariaDB、Hive、Presto/Trino、Impala、Spark

但主要以spark为主,其在支持spark程序的多样性上有非常优秀的展现

1.4.  Zeppelin和Hue的的异同

1.4.1.   功能

(1)Zeppelin和Hue都能提供一定的数据查询和可视化的功能,都提供了多种图形化数据表示形式。

(2)Zeppelin支持的后端数据查询程序较多。

(3)Zeppelin只提供了单一的数据处理功能,包括上文提到的数据提取、数据发现、数据分析、数据可视化等都属于数据处理的范畴。

而Hue的功能相对丰富的多,除了类似的数据处理,还有元数据管理、Oozie工作流管理、作业管理、用户管理、Sqoop集成等很多管理功能。

从这点看,Zeppelin只是一个数据处理工具,而Hue更像是一个综合管理工具。

1.4.2.   架构

(1)Zeppelin采用插件式的解释器,通过插件开发,可以添加任何后端语言和数据处理程序。相对来说更独立和开放。

(2)Hue与Hadoop生态圈的其它组件密切相关,很多业界的商用大数据产品都集成了Hue。

1.4.3.   使用场景

(1)Zeppelin适合单一数据处理、但后端处理语言繁多的场景,尤其适合Spark。

(2)Hue适合与Hadoop集群的多个组件交互、如Oozie工作流、Sqoop等联合处理数据的场景,尤其适合与Impala协同工作。



相关文章

LINUX 安全运维-用户

Linux提供了各种不同的用户和角色,而有些用户和角色,系统根本不需要,应该删除他们,因为帐号越多,系统就越不安全!黑客可能利用他们,威胁服务器的安全。删除不需要的用户:for i in {adm,l...

SQL Server优化入门系列(四)——  找到Top SQL

SQL Server优化入门系列(四)—— 找到Top SQL

说明从会话信息中我们可以查看实例当前正在运行的SQL、当前被Block的SQL。但是如果要查看过去一段时间执行的SQL,我们有几个选择1、通过外部SQL审计平台记录所有SQL。2、通过SQL Serv...

DBeaver连接Trino

DBeaver连接Trino

1、背景trino 开启https,需要通过dbeaver进行连接DBeaver版本:21.2.02、解决办法下载安装dbeaver打开选择选择trino填写主机如果trino开启https,则可以使...

Docker 容器技术:简化 MySQL 主从复制部署与优化

前言    在现代数据库管理中,MySQL 主从复制是一种关键技术,用于提高数据的可用性和性能。随着 Docker 容器技术的普及,利用 Docker 搭建 MySQL 主从复制环境已成为一种趋势,它...

Kerberos安装

Kerberos安装

1、环境准备(1)安装好jdk(2)下载Cryptography Extension (JCE) Unlimited Strength Jurisdiction Policy File。解压下载后的z...

Hive3 on spark 集成

Hive3 on spark 集成

前置条件hadoop yarn环境正常oracle jdk 1.8版本1、spark2 下载准备https://archive.apache.org/dist/spark/spark-2.4.5/sp...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。