Zeppelin简介

南墨2年前技术文章1274

1.    Zeppelin

1.1.  Zeppelin是什么

zeppelin是一个非常流行的开源数据探索分析平台。zeppelin集成了非常多的数据处理和分析相关的组件,其核心组织概念是notebook,所有的操作都可以在notebook中完成,官网的原话是“The Notebook is the place for all yourneeds”。

1.2.  Zeppelin能干什么

l   运行scala代码

l   运行sparksql

l   拥有非常强大的可视化功能,可以对数据进行探索分析

l   运行结果方便导出

l   支持接入多种数据处理引擎,如spark,hive等

1.3.  Zeppelin支持哪些组件

Postgres、MySQL、MariaDB、Hive、Presto/Trino、Impala、Spark

但主要以spark为主,其在支持spark程序的多样性上有非常优秀的展现

1.4.  Zeppelin和Hue的的异同

1.4.1.   功能

(1)Zeppelin和Hue都能提供一定的数据查询和可视化的功能,都提供了多种图形化数据表示形式。

(2)Zeppelin支持的后端数据查询程序较多。

(3)Zeppelin只提供了单一的数据处理功能,包括上文提到的数据提取、数据发现、数据分析、数据可视化等都属于数据处理的范畴。

而Hue的功能相对丰富的多,除了类似的数据处理,还有元数据管理、Oozie工作流管理、作业管理、用户管理、Sqoop集成等很多管理功能。

从这点看,Zeppelin只是一个数据处理工具,而Hue更像是一个综合管理工具。

1.4.2.   架构

(1)Zeppelin采用插件式的解释器,通过插件开发,可以添加任何后端语言和数据处理程序。相对来说更独立和开放。

(2)Hue与Hadoop生态圈的其它组件密切相关,很多业界的商用大数据产品都集成了Hue。

1.4.3.   使用场景

(1)Zeppelin适合单一数据处理、但后端处理语言繁多的场景,尤其适合Spark。

(2)Hue适合与Hadoop集群的多个组件交互、如Oozie工作流、Sqoop等联合处理数据的场景,尤其适合与Impala协同工作。



相关文章

CDN下载文件报错

CDN下载文件报错

一、问题现象通过域名下载文件,下载到100M左右的时候,会提示下载错误,无法继续下载。二、解决思路业务链路:域名解析到cdn---slb--后端服务器。首先需要判断问题出在哪一层,再看这一层是否有什么...

kubernetes实战详解

kubernetes实战详解

一、k8s是什么?1、Kubernetes 是用于自动部署,扩展和管理容器化应用程序的开源系统2、生产级别的容器编排系统3、PaaS平台二、容器是什么?或者说docker是什么?1、容器就是一个沙箱C...

MySQL运维实战之ProxySQL(9.8)SQL镜像

使用proxysql的镜像(mirror)功能,可以将SQL发送到一个额外的后端实例执行。还可以将发送到镜像的SQL进行改写,以测试修改后的SQL是否能正常执行。通过mirror_flagOut字段,...

AD域主备部署

AD域主备部署

总览在本篇文章中, 我将记录部署多 DC 实现高可用方案的详细步骤, 期间我会尽量使用 PowerShell 来实现相应的动作, 实在找不到命令或者 GUI 更方便的再附截图. 主要步骤分为:部署 2...

kaniko构建镜像的方式

docker构建镜像用docker来构建容器镜像也是常用的方法,在具备构建容器镜像所需的两个要素(Dockerfile & 上下文)的前提下,用下述命令就能构建一个容器镜像出来```Plain...

Linux SSSD同步多ou用户

Linux SSSD同步多ou用户

1、背景在使用AD作为ldap服务器,使用sssd同步用户到服务器,但是AD中用户过多,分布在不同部门的ou中。如果全部进行同步,则会对ad服务器压力过大,用户缓存同步缓慢。需要能够指定多个ou进行同...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。