Zeppelin简介

南墨2年前 (2023-06-29)技术文章1274

1. Zeppelin

zeppelin是一个非常流行的开源数据探索分析平台。zeppelin集成了非常多的数据处理和分析相关的组件，其核心组织概念是notebook，所有的操作都可以在notebook中完成，官网的原话是“The Notebook is the place for all yourneeds”。

l 运行scala代码

l 运行sparksql

l 拥有非常强大的可视化功能，可以对数据进行探索分析

l 运行结果方便导出

l 支持接入多种数据处理引擎,如spark,hive等

Postgres、MySQL、MariaDB、Hive、Presto/Trino、Impala、Spark

但主要以spark为主，其在支持spark程序的多样性上有非常优秀的展现

（1）Zeppelin和Hue都能提供一定的数据查询和可视化的功能，都提供了多种图形化数据表示形式。

（2）Zeppelin支持的后端数据查询程序较多。

（3）Zeppelin只提供了单一的数据处理功能，包括上文提到的数据提取、数据发现、数据分析、数据可视化等都属于数据处理的范畴。

而Hue的功能相对丰富的多，除了类似的数据处理，还有元数据管理、Oozie工作流管理、作业管理、用户管理、Sqoop集成等很多管理功能。

从这点看，Zeppelin只是一个数据处理工具，而Hue更像是一个综合管理工具。

（1）Zeppelin采用插件式的解释器，通过插件开发，可以添加任何后端语言和数据处理程序。相对来说更独立和开放。

（2）Hue与Hadoop生态圈的其它组件密切相关，很多业界的商用大数据产品都集成了Hue。

（1）Zeppelin适合单一数据处理、但后端处理语言繁多的场景，尤其适合Spark。

（2）Hue适合与Hadoop集群的多个组件交互、如Oozie工作流、Sqoop等联合处理数据的场景，尤其适合与Impala协同工作。

返回列表

一、问题现象通过域名下载文件，下载到100M左右的时候，会提示下载错误，无法继续下载。二、解决思路业务链路：域名解析到cdn---slb--后端服务器。首先需要判断问题出在哪一层，再看这一层是否有什么...

一、k8s是什么？1、Kubernetes 是用于自动部署，扩展和管理容器化应用程序的开源系统2、生产级别的容器编排系统3、PaaS平台二、容器是什么？或者说docker是什么？1、容器就是一个沙箱C...

使用proxysql的镜像(mirror)功能，可以将SQL发送到一个额外的后端实例执行。还可以将发送到镜像的SQL进行改写，以测试修改后的SQL是否能正常执行。通过mirror_flagOut字段，...

总览在本篇文章中, 我将记录部署多 DC 实现高可用方案的详细步骤, 期间我会尽量使用 PowerShell 来实现相应的动作, 实在找不到命令或者 GUI 更方便的再附截图. 主要步骤分为:部署 2...

docker构建镜像用docker来构建容器镜像也是常用的方法，在具备构建容器镜像所需的两个要素(Dockerfile & 上下文)的前提下，用下述命令就能构建一个容器镜像出来```Plain...

1、背景在使用AD作为ldap服务器，使用sssd同步用户到服务器，但是AD中用户过多，分布在不同部门的ou中。如果全部进行同步，则会对ad服务器压力过大，用户缓存同步缓慢。需要能够指定多个ou进行同...