impala:大数据交互查询

浩客2年前技术文章853


一、简介

       Cloudera公司推出,提供对HDFSHBase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用与Apache Hive相同的元数据,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。


二、概念与架构

Impala组件

      Impala是一个分布式、大规模并行处理(MPP)数据库引擎。它由不同的守护进程组成,这些守护进程运行在集群中的特定主机上。

55555555555.png


Impala Daemon(Impalad)

      impalad是Impala的核心进程,运行在所有的数据节点上,每个Impalad与DataNode运行在同一台主机上。Impalad与StateStore保持持续通信,以确认哪些Impalad是健康的,可以接受新的工作。Impalad执行的一些关键功能如下:

  • 读写数据文件。

  • 接受来自Hue、JDBC 或 ODBC 的查询。

  • impala-shell 在集群中并行处理查询并分配工作。

  • 将中间查询结果传回中央协调器。

Impala Statestore

      StateStore会检查集群中所有 Impalad的健康状况,并持续向每个Impalad转发检查结果。如果某个 Impalad因硬件故障、网络或其他原因离线,StateStore 会通知所有其他 Impalad,这样未来的查询就可以避免向无法访问的 Impalad发出请求。

      负载平衡和高可用性方面的大多数注意事项都适用于 impalad 守护进程。statestored 和 catalogd 守护进程对高可用性没有特殊要求,因为这些守护进程出现问题不会导致数据丢失。如果这些守护进程因特定主机中断而不可用,可以停止 Impala 服务,删除 Impala StateStore 和 Impala Catalog Server 角色,在其他主机上添加这些角色,然后重新启动 Impala 服务。

Impala Catalog Service

      Impala Catalog会将 Impala SQL 语句中的元数据更改转发给集群中的所有 Impalad。由于请求是通过 StateStore 传递的,因此可以在同一台主机上运行statestored 和 catalogd 服务。每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新(如使用hive在表中insert一条数据,impala是无法读取这条新数据的,需要手动调用命令刷新表)

三、impala运行原理

6666666666.pngImpala执行查询的具体过程:

  1. 当用户提交查询前,Impala 先创建一个负责协调客户端提交的查询的Impalad 进程,该进程会向Impala State Store 提交注册订阅信息,State Store会创建一个statestored进程,statestored进程通过创建多个线程来处理Impalad的注订阅信息。

  2. 用户通过CLI客户端提交一个查询到 impalad 进程,Impalad 的Query Planner 对SQL语句进行解析,生成解析树;然后Planner 把这个查询的解析树变成若干PlanFrasment;发送到 Query Coordinator

  3. Coordinator 通过从元数据库中获取元数据,从HDFS的名称节点中获取数据地址,以得到存储这个查询相关数据的所有数据节点。

  4. Coordinator 初始化相应impalad 上的任务执行,即把查询任务分配给所有存储这个查询相关数据的数据节点。

  5. QueryExecutor通过流式交换中间输出,并由QueryCoordinator汇聚来自各个impalad的结果。

  6. Coordinator把汇总后的结果返回给CLI客户端。

四、Impala的优缺点

优点:

  1. 基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销(区别于MR shuffle过程,溢写到磁盘、归并等)

  2. 无需转换为MapReduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快

  3. 使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销

  4. 支持各种文件格式,如TEXTFILE 、SEQUENCEFILE、RCFile、Parquet

  5. 可以访问Hive的metastore,对Hive数据直接做数据分析

缺点:

  1. 对内存的依赖大,且完全依赖于Hive

  2. 实践中,分区超过1万,性能严重下降

  3. 只能读取文本文件,而不能直接读取自定义二进制文件

  4. 每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新(如使用hive在表中insert一条数据,impala是无法读取这条新数据的,需要手动调用命令刷新表)

相关文章

ACOS统一监控之java应用断诊

ACOS统一监控之java应用断诊

一、前言对于一些使用Java语言搭建的应用架构,java的应用诊断可以帮助开发人员快速发现和解决应用程序中的问题,提高应用程序的性能和稳定性。以下是常用Java应用诊断方法:堆转储分析:使用工具如MA...

Dockerfile编写指南

Dockerfile编写指南

一、背景  在k8s提出抛弃docker,拥抱其他的cri插件的情况下,为什么还有这篇指南呢?首先Dockerfile作为容器打包的标准,已经存在了很多年了。其中的编写技巧到现在也是一直延续的,所以并...

rds pg10 ssd云盘升级磁盘类型方案

rds pg10 ssd云盘升级磁盘类型方案

1、升级方案一原实例变更配置方案优缺点:优点:操作方便,升级后能保证数据和存储过程都是正常的。缺点:停机时间较长,整个变更配置期间业务不可用。变更步骤参考:在配置信息区域单击变更配置。(仅包年包月实例...

stress压测工具

1、stress 概述stress是一个linux的压力测试工具,主要用来模拟系统负载较高时的场景,用于对系统的CPU、IO、内存、负载、磁盘等进行压力测试2、安装yum install -y epe...

C++ 编程:数组的定义

1. 什么是数组?数组让能够按顺序将一系列相同类型的数据存储到内存中 C++ 中的数组可分为静态数组 与 动态数组 两种。2. 静态数组首先介绍声明一个 静态数组 的语法:/* ElementType...

PG查询性能Top SQL

一、查询当前正在运行的Top SQL    查询当前正在运行的会话中耗时最长的Top SQL,where条件可按需修改SELECT pgsa.datname AS database_name    ...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。