大数据基础之HBase入门介绍

雅泽2年前 (2023-10-26)技术文章692

一、HBase简介

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协调工具。
思考：如何存储物流信息

运单号：625311858890

2018-01-07 10:09:25	上海			已发货
2018-01-07 18:27:32	上海航空部		已收件
2018-01-07 20:25:38	快件离开上海航空部	已发往北京
2018-01-09 08:27:14	北京回龙观		派件中
2018-01-09 12:37:37	北京回龙观		已签收

二、HBase三要素

1、主键：Row Key （主键是用来检索记录的主键，访问hbase table中的行，只有三种方式：）

通过单个row key访问
通过row key的range
全表扫描（scan）

2、列族：Column Family

列族在创建表的时候声明，一个列族可以包含多个列，列中的数据都是以二进制形式存在，没有数据类型。

3、时间戳：timestamp

HBase中通过row和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引

三、HBASE基础知识

1、物理存储

able 在行的方向上分割为多个HRegion，一个region由[startkey,endkey)表示，每个HRegion分散在不同的RegionServer中

2、架构体系

Client 包含访问hbase 的接口，client 维护着一些cache 来加快对hbase 的访问，比如regione 的位置信息
Zookeeper

保证任何时候，集群中只有一个running master
存贮所有Region 的寻址入口
实时监控Region Server 的状态，将Region server 的上线和下线信息，实时通知给Master
存储Hbase 的schema,包括有哪些table，每个table 有哪些column family。Master 可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行
为Region server 分配region
负责region server 的负载均衡
发现失效的region server 并重新分配其上的region

3、HBase的逻辑梳理

HBase中有两张特殊的Table，-ROOT-(hbase:namespace)和.META.(hbase:meta)

-ROOT-(hbase:namespace) ：记录了.META.(hbase:meta)表的Region信息，-ROOT-(hbase:namespace)只有一个region
.META.(hbase:meta) ：记录了用户创建的表的Region信息，.META.(hbase:meta)可以有多个regoin

Zookeeper中记录了-ROOT-(hbase:namespace)表的location
Client访问用户数据之前需要首先访问zookeeper，然后访问-ROOT-(hbase:namespace)表，接着访问.META.(hbase:meta)表，最后才能找到用户数据的位置去访问

四、Region Server

维护Master 分配给它的region，处理对这些region 的IO 请求
负责切分在运行过程中变得过大的region

可以看出，client 访问hbase 上数据的过程并不需要master 参与，寻址访问先zookeeper再regionserver，数据读写访问regioneserver。HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。

五、系统架构

六、HBASE与相关软件

hadoop-2.2.0
hbase-0.96.2-hadoop2
JDK7
RHEL6.3
前提条件：本机或集群环境下hadoop.1.1.2已经安装成功

七、HBase Shell

hbase提供了一个shell的终端给用户交互（#$HBASE_HOME/bin/hbase shell ）

名称	命令表达式
创建表	create '表名称', '列族名称1','列族名称2','列族名称N'
添加记录	put '表名称', '行名称', '列名称:', '值'
查看记录	get '表名称', '行名称'
查看表中的记录总数	count '表名称'
删除记录	delete '表名' ,'行名称' , '列名称'
删除一张表	先要屏蔽该表，才能对该表进行删除，第一步 disable '表名称' 第二步 drop '表名称'
查看所有记录	scan "表名称"
查看某个表某个列中所有数据	scan "表名称" , {COLUMNS=>'列族名称:列名称'}
更新记录	就是重写一遍进行覆盖

八、HBASE Shell的DDL操作

1、创建表

>create 'users','user_id','address','info'

2、列出全部表

>list

3、得到表的描述

>describe 'users'

4、创建表

>create 'users_tmp','user_id','address','info'

5、删除表

>disable 'users_tmp'
>drop 'users_tmp'

九、HBASE Shell的DML操作

1、添加记录

put 'users','xiaoming','info:age','24';
put 'users','xiaoming','info:birthday','1987-06-17';
put 'users','xiaoming','info:company','alibaba';
put 'users','xiaoming','address:contry','china';
put 'users','xiaoming','address:province','zhejiang';
put 'users','xiaoming','address:city','hangzhou';
put 'users','zhangyifei','info:birthday','1987-4-17';
put 'users','zhangyifei','info:favorite','movie';
put 'users','zhangyifei','info:company','alibaba';
put 'users','zhangyifei','address:contry','china';
put 'users','zhangyifei','address:province','guangdong';
put 'users','zhangyifei','address:city','jieyang';
put 'users','zhangyifei','address:town','xianqiao';

2、获取一条记录

1.取得一个id的所有数据
2.获取一个id，一个列族的所有数据
3.获取一个id，一个列族中一个列的所有数据

>get 'users','xiaoming'

>get 'users','xiaoming','info'

>get 'users','xiaoming','info:age'

3、更新记录

>put 'users','xiaoming','info:age' ,'29'
>get 'users','xiaoming','info:age'
>put 'users','xiaoming','info:age' ,'30'
>get 'users','xiaoming','info:age'

4、获取单元格数据的版本数据

>get 'users','xiaoming',{COLUMN=>'info:age',VERSIONS=>1}
>get 'users','xiaoming',{COLUMN=>'info:age',VERSIONS=>2}
>get 'users','xiaoming',{COLUMN=>'info:age',VERSIONS=>3}

5、获取单元格数据的某个版本数据

> get 'users','xiaoming',{COLUMN=>'info:age',TIMESTAMP=>1364874937056}

6、全表扫描

>scan 'users'

7、删除xiaoming值的'info:age'字段

>delete 'users','xiaoming','info:age'
  >get 'users','xiaoming'

8、删除整行

>deleteall 'users','xiaoming'

9、统计表的行数

>count 'users'

10、清空表

>truncate 'users'

返回列表

上一篇：大数据基础之HDFS入门

下一篇：Kubernetes安全--基于sa和user的rbac认证机制

MySQL运维实战(7.2) MySQL复制server_id相关问题

主库server_id没有设置主库没有设置server_idGot fatal error 1236 from master when&nb...

Python 装饰器

1、闭包自由变量：未在本地作用域中定义的变量。例如定义在内层函数外的外层函数的作用域中的变量。闭包：就是一个概念，出现在嵌套函数中，指的是内层函数引用到了外层函数的自由变量，就形成了闭包。很多语言都有...

Linux分区动态扩容/缩容

xfs与ext文件系统类型xfs：XFS一种高性能的日志文件系统，几乎具备所有EXT4支持的功能。但不支持文件系统收缩ext：支持度最广、但格式化慢，有ext2、ext3、ext4基础命令先查看一下目...

apache Hbase2.x 使用hbck2修复工具

1、背景默认情况下apache hbase 使用hbck2时，无法使用-j 来加载hbck2的jar包，无法进行修复2、解决办法是由于默认情况下只使用自带的hbase hbck修复命令，大部分功能在2...

K8s cni0网卡异常

一、问题现象pod启动时，调度到其中某个节点上的pod都无法正常启动，查看启动报错：network: failed to set bridge addr: "cni0" alrea...

Kubernetes 调度策略

1、资源调度创建一个新的 Pod 资源对象时，该 Pod 应该运行在哪个工作节点，由 Scheduler 调度器进行调度。Scheduler 是一个守护进程，其内部有很多调度算法。Pod 调度流程：当...

大数据基础之HBase入门介绍

一、HBase简介

二、HBase三要素

三、HBASE基础知识

四、Region Server

五、系统架构

六、HBASE与相关软件

七、HBase Shell

八、HBASE Shell的DDL操作

九、HBASE Shell的DML操作

相关文章

MySQL运维实战(7.2) MySQL复制server_id相关问题

Python 装饰器

Linux分区动态扩容/缩容

apache Hbase2.x 使用hbck2修复工具

K8s cni0网卡异常

Kubernetes 调度策略

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号

大数据基础之HBase入门介绍

一、HBase简介

二、HBase三要素

三、HBASE基础知识

四、Region Server

五、系统架构

六、HBASE与相关软件

七、HBase Shell

八、HBASE Shell的DDL操作

九、HBASE Shell的DML操作

相关文章

MySQL运维实战(7.2) MySQL复制server_id相关问题

Python 装饰器

Linux分区动态扩容/缩容

apache Hbase2.x 使用hbck2修复工具

K8s cni0网卡异常

Kubernetes 调度策略

发表评论 取消回复

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?dcf8139ce75b768b71dccc5e589b983c"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号