Hive架构图及Hive SQL的执行流程

九月2年前技术文章1559


1、Hive产生背景

  • MapReduce编程的不便性

  • HDFS上的文件缺少Schema(表名,名称,ID等,为数据库对象的集合)

2、Hive是什么

Hive的使用场景是什么?

基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析

可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。


  • 由Facebook开源,最初用于解决海量结构化的日志数据统计问题

  • 构建在Hadoop之上的数据仓库

  • Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同)

  • 通常用于进行离线数据处理(早期采用MapReduce)

  • 底层支持多种不同的执行引擎(现在可以直接把Hive跑在Spark上面)

Hive底层的执行引擎有:MapReduce、Tez、Spark

3、Hive 特点

  • Hive 最大的特点是 Hive 通过类 SQL 来分析大数据,而避免了写 MapReduce 程序来分析数据,这样使得分析数据更容易

  • Hive 是将数据映射成数据库和一张张的表,库和表的元数据信息一般存在关系型数据库上(比如 MySQL)

  • Hive 本身并不提供数据的存储功能,数据一般都是存储在 HDFS 上的(对数据完整性、格式要求并不严格)

  • Hive 很容易扩展自己的存储能力和计算能力,这个是继承自 hadoop 的(适用于大规模的并行计算)

  • Hive 是专为 OLAP(在线分析处理) 设计,不支持事务

4、Hive体系架构

Hive是C/S模式

客户端:

Client端有JDBC/ODBC和Thrift Client,可远程访问Hive

可以通过shell脚本的方式访问,或者通过Thrift协议,按照平时编写JDBC的方式完成对Hive的数据操作

Server:CLI、Thrift Server、HWI(Hive web Interface)、Driver、Metastore

  • 其中CLI、Thrift Server、HWI是暴露给Client访问的独立部署的Hive服务

  • Driver、Metastore是Hive内部组件,Metastore还可以供第三方SQL on Hadoop框架使用

  • beeine(Hive 0.11引入),作为Hive JDBC Client访问HiveServer2,解决了CLI并发访问问题


Driver:

输入了sql字符串,对sql字符串进行解析,转化程抽象语法树,再转化成逻辑计划,然后使用优化工具对逻辑计划进行优化,最终生成物理计划(序列化反序列化,UDF函数),交给Execution执行引擎,提交到MapReduce上执行(输入和输出可以是本地的也可以是HDFS/Hbase)见下图的hive架构


Metastore:

Metastore进行元数据管理:Derby(内置 )、Mysql;Derby:Derby只接受一个Hive的会话访问;Mysql:Hive跑在Hadoop之上的,Mysql进行主备(定时同步操作)

image.png

由上图可知,hadoop 和 mapreduce 是 hive 架构的根基。

MetaStore:存储和管理Hive的元数据,使用关系数据库来保存元数据信息。

解析器和编译器:将SQL语句生成语法树,然后再生成DAG形式的Job链,成为逻辑计划

优化器:只提供了基于规则的优化

  • 列过滤:去除查询中不需要的列

  • 行过滤:Where条件判断等在TableScan阶段就进行过滤,利用Partition信息,只读取符合条件的Partition

  • 谓词下推:减少后面的数据量

  • Join方式
    。 Map端join: 调整Join顺序,确保以大表作为驱动表,小表载入所有mapper内存中
    。 shuffle join:按照hash函数,将两张表的数据发送给join
    。对于数据分布不均衡的表Group by时,为避免数据集中到少数的reducer上,分成两个map-reduce阶段。第一个阶段先用Distinct列进行shuffle,然后在reduce端部分聚合,减小数据规模,第二个map-reduce阶段再按group-by列聚合。
    。 sort merge join:排序,按照顺序切割数据,相同的范围发送给相同的节点(运行前在后台创建立两张排序表,或者建表的时候指定)
    。 在map端用hash进行部分聚合,减小reduce端数据处理规模。

执行器:执行器将DAG转换为MR任务。执行器会顺序执行其中所有的Job,如果Job不存在依赖关系,采用并发的方式进行执行。

5、基于Hadoop上的Hive SQL的执行流程


图2.png


sql写出来以后只是一些字符串的拼接,所以要经过一系列的解析处理,才能最终变成集群上的执行的作业

   1.Parser:将sql解析为AST(抽象语法树),会进行语法校验,AST本质还是字符串

   2.Analyzer:语法解析,生成QB(query block)

   3.Logicl Plan:逻辑执行计划解析,生成一堆Opertator Tree

   4.Logical optimizer:进行逻辑执行计划优化,生成一堆优化后的Opertator Tree

    5.Phsical plan:物理执行计划解析,生成tasktree

    6.Phsical Optimizer:进行物理执行计划优化,生成优化后的tasktree,该任务即是集群上的执行的作业

  • 结论:经过以上的六步,普通的字符串sql被解析映射成了集群上的执行任务,最重要的两步是 逻辑执行计划优化和物理执行计划优化(图中红线圈画)



相关文章

trino容器对接ldap(二)

trino容器对接ldap(二)

前提:本文前提是在trino容器已经对接上hive组件,并且ldap已经部署完成的基础上进行的对接。前提文章见:helm安装部署trino对接hive(一)安装部署1、设置证书因为不确定是在哪台机器中...

Debezium抽取SQL Server同步kafka

Debezium抽取SQL Server同步kafka

ebezium SQL Server连接器捕获SQL Server数据库模式中发生的行级更改。官方2.0文档:https://debezium.io/documentation/reference/2...

HDP-Yarn开启CPU调度和隔离

HDP-Yarn开启CPU调度和隔离

进入到ambari主界面 点击yarn 点击config CPU Scheduling and Isolation 设置为enable修改高级配置点击ADVANCED搜索需要修改的配yarn.node...

 大数据集群监控配置操作指导(二)node_exporter+mysql_exporter部署

大数据集群监控配置操作指导(二)node_exporter+mysql_exporter部署

2.node_exporter监控集群服务器(所有集群服务器)wget https://github.com/prometheus/node_exporter/releases/download/v1...

idea打包java可执行jar包

idea打包java可执行jar包

1,在项目上鼠标右键 --> Open Module SettingsArtifacts --> + --> JAR --> From modules with depende...

ElasticSearch开启xpack

ElasticSearch开启xpack

ES开启xpack1、生成ca证书(用户名和密码不用设置,一路回车,生成证书文件elastic-stack-ca.p12,生成kibana证书的时候也需要该ca证书)/opt/dtstack/es-6...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。