Zeppelin简介

南墨2年前技术文章749

1.    Zeppelin

1.1.  Zeppelin是什么

zeppelin是一个非常流行的开源数据探索分析平台。zeppelin集成了非常多的数据处理和分析相关的组件,其核心组织概念是notebook,所有的操作都可以在notebook中完成,官网的原话是“The Notebook is the place for all yourneeds”。

1.2.  Zeppelin能干什么

l   运行scala代码

l   运行sparksql

l   拥有非常强大的可视化功能,可以对数据进行探索分析

l   运行结果方便导出

l   支持接入多种数据处理引擎,如spark,hive等

1.3.  Zeppelin支持哪些组件

Postgres、MySQL、MariaDB、Hive、Presto/Trino、Impala、Spark

但主要以spark为主,其在支持spark程序的多样性上有非常优秀的展现

1.4.  Zeppelin和Hue的的异同

1.4.1.   功能

(1)Zeppelin和Hue都能提供一定的数据查询和可视化的功能,都提供了多种图形化数据表示形式。

(2)Zeppelin支持的后端数据查询程序较多。

(3)Zeppelin只提供了单一的数据处理功能,包括上文提到的数据提取、数据发现、数据分析、数据可视化等都属于数据处理的范畴。

而Hue的功能相对丰富的多,除了类似的数据处理,还有元数据管理、Oozie工作流管理、作业管理、用户管理、Sqoop集成等很多管理功能。

从这点看,Zeppelin只是一个数据处理工具,而Hue更像是一个综合管理工具。

1.4.2.   架构

(1)Zeppelin采用插件式的解释器,通过插件开发,可以添加任何后端语言和数据处理程序。相对来说更独立和开放。

(2)Hue与Hadoop生态圈的其它组件密切相关,很多业界的商用大数据产品都集成了Hue。

1.4.3.   使用场景

(1)Zeppelin适合单一数据处理、但后端处理语言繁多的场景,尤其适合Spark。

(2)Hue适合与Hadoop集群的多个组件交互、如Oozie工作流、Sqoop等联合处理数据的场景,尤其适合与Impala协同工作。



相关文章

PG参数整理

一、参数的分类参数的类型名称说明internal内部参数,只读无法修改。postgres程序写死或者是在初始化指定后无法修改的参数postmaster更改该类参数,需重启生效sighup不需重启,重新...

oracle gi安装报错PRCR-1079 : Failed to start resource ora.cvu

安装gi执行root.sh报错:PRCR-1079 : Failed to start resource ora.cvu安装gi执行root.sh报错:PRCC-1014 : LISTENER_SCA...

ES基础知识介绍

ES 核心概念ES 是使用 Java 编写的一种开源搜索引擎,它在内部使用 Lucene 做索引与搜索,通过对 Lucene 的封装,隐藏了 Lucene 的复杂性,取而代之的提供一套简单一致的 RE...

Datanode节点坏卷处理

Datanode节点坏卷处理

1、告知客户故障信息,确定是否有备用磁盘更换2、停止故障节点的所有角色服务3、卸载故障磁盘umount -vl /data64、等待硬件厂商更换好磁盘5、对新磁盘分区和格式化#1.磁盘分区 mkfs...

详解迁云流程

详解迁云流程

一、现有云端环境梳理可以通过阿里云工单申请导出网络架构图,在图的信息上梳理阿里云现有架构二、制定迁移方案根据梳理的信息,确定实例迁移的方案,有夸账号迁移,跨地域迁移,IDC上云等不同场景。需要考虑的是...

ES运维(四)扩容方式迁移

ES运维(四)扩容方式迁移

1 迁移概述本次模拟es在线迁移方式:集群扩容-->数据迁移-->老节点下线-->服务重启刷新配置。 中间master替换的时候会有短暂的不可用。 另外业务测需注意:老节点下线前...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。