大数据组件Superset

楼高12个月前技术文章500
  1. Superset概述

    Apache Superset 是一个开源的、现代的、轻量级 BI 分析工具,能够对接多种数据源、 拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。

  2. Superset应用场景

    由于 Superset 能够对接常用的大数据分析工具,如 Hive、Kylin、Druid 等,且支持自定 义仪表盘,故可作为数仓的可视化工具

  3. Superset安装使用

    3.1 安装Python环境

    Superset 是由 Python 语言编写的 Web 应用,要求 Python3.6 的环境

    3.2 安装Miniconda

    conda 是一个开源的包、环境管理器,可以用于在同一个机器上安装不同 Python 版本的软件包及其依赖,并能够在不同的 Python 环境之间切换,Anaconda 包括 Conda、Python 以 及一大堆安装好的工具包,比如:numpy、pandas 等,Miniconda 包括 Conda、Python。 此处,我们不需要如此多的工具包,只是用来管理不同版本的 Python 环境,故选择 MiniConda。

    3.3 Superset部署

    3.3.1 安装Superset依赖

    sudo yum install -y python-setuptools

  sudo yum install -y gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel cyrus-sasl-devel openldap-devel

  3.3.2 安装setuptools和pip

  pip install --upgrade setuptools pip -i https://pypi.douban.com/simple/

  3.3.3 安装Superset

  pip install apache-superset -i https://pypi.douban.com/simple/

  3.3.4 初始化Superset

  Superset是一个web应用,自带数据库需要初始化

  superset db upgrade

  3.3.5 创建管理员用户

  export FLASK_APP=superset

  flask fab create-admin

  下面根据提示填写管理员用户,flask 是一个 python web 框架,Superset 使用的就是 flask

    3.3.6 Superset初始化

  superset init

  3.3.7 启动Superset

  确保当前conda环境为superset,gunicorn --workers 5 --timeout 120 --bind hadoop001:8787 "superset.app:create_app()" --daemon

  说明: 

    workers:指定进程个数 

    timeout:worker 进程超时时间,超时会自动重启 

    bind:绑定本机地址,即为 Superset 访问地址 

    daemon:后台运行

    3.3.8 停止Superset

    ps -ef | awk '/gunicorn/ && !/awk/{print $2}' | xargs kill -9

  退出superset环境:conda deactivate

  3.3.9 登录Superset

  http://hdp001:8787

    

相关文章

PG的多版本并发控制(一)

PG的多版本并发控制(一)

一、 表系统字段几个比较重要概念1.1  tupletuple表示表中的数据行,在MySQL中用row表示。在表数据页中,主要分为普通的数据元祖和TOAST元祖。以下是一个普通数据元祖的结构,主要由三...

服务器间文件传输方法

一、windows间互传当我们想要对业务数据进行传输时,需要借助第三方工具或者系统自带的服务进行数据传输,以下介绍三种常见数据传输方法1、通过windows自带的系统映射服务拷贝数据到目标服务器;端口...

网络数据链路层-MAC帧(1)

网络数据链路层-MAC帧(1)

1.数据链路层数据链路层是网络协议栈中最底层的内容,而在之前对其他层次的学习让我们知道传输层可以保证数据的可靠性问题,网络层保证数据跨网络转发的路由问题,而数据链路层解决的就是局域网内两台主机间通信的...

oracle回收站简介

一、回收站简介1、概念和功能回收站从ORACLE 10g开始引入,全称叫Tablespace Recycle Bin。回收站实际是一个逻辑区域,使用的已经分配的表空间,表被drop时,数据不会实际删除...

MySQL运维实战之ProxySQL(9.9)proxysql自身高可用

MySQL运维实战之ProxySQL(9.9)proxysql自身高可用

proxysql作为一个程序,本身也可能出现故障。部署proxysql的服务器也肯能出现故障。高可用架构的一个基本原则是消除单点。可以在多个节点上部署proxysql,在proxysql之前再加一层负...

详解迁云流程

详解迁云流程

一、现有云端环境梳理可以通过阿里云工单申请导出网络架构图,在图的信息上梳理阿里云现有架构二、制定迁移方案根据梳理的信息,确定实例迁移的方案,有夸账号迁移,跨地域迁移,IDC上云等不同场景。需要考虑的是...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。