Hbase压缩算法

南墨1年前技术文章618

HBase包含两类压缩机制:DataBlockEncode前缀压缩和文件级别的压缩Compress

对于DataBlockEncode前缀压缩,提供了三种算法:PREFIX\DIFF\FAST_DIFF,其中FAST_DIFF的压缩比和性能最优,推荐使用。

对于文件级别的压缩,也提供了三种压缩算法:LZO\GZ\SNAPPY。

三种压缩算法比较如下:

  • GZ的压缩率最高,但是其实CPU密集型的,对CPU的消耗比其他算法要多,压缩和解压速度也慢。

  • LZO的压缩率居中,比GZIP要低一些,但是压缩和解压速度明显要比GZIP快很多,其中解压速度快的更多。

  • SNAPPY的压缩率最低,而压缩要稍微比LZO要快一些,解压速度与LZO相当,能够在CPU和IO之间较为平衡。

一般情况下,选择FAST_DIFF(使用该算法会提高系统性能并降低系统所需容量,默认所有计算公式均使用此算法)和SNAPPY压缩,并使用HDFS3副本,基本可以认为,

原始业务数据量大小:存入HBase后数据量大小(占用HDFS文件系统的容量大小)≈1:1.3


相关文章

kubernetes调度和调度器

一、Kubernetes调度Scheduler 是 kubernetes 的调度器,主要的任务是把定义的 pod 分配到集群的节点上。听起来非常简单,但有很多要考虑的问题:公平:如何保证每个节点都能被...

Linux网络扫描和嗅探工具—Nmap

1、简介Nmap,也就是Network Mapper,是Linux下的网络扫描和嗅探工具包。它由Fyodor编写并维护。由于Nmap品质卓越,使用灵活,它已经是渗透测试人员必备的工具。其基本功能有三个...

根目录扩容

根目录扩容

1、创建一个空分区创建分区:查看创建的新分区:2、开始扩容(1)创建物理卷[root@web03 ~]# lvm lvm> pvcreate /dev/vdb1   Physical vol...

Python 调用阿里云 OpenAPI 巡检到期云资源

Python 调用阿里云 OpenAPI 巡检到期云资源

前言本篇文章介绍我写的一个程序,通过调用阿里云 OpenAPI 巡检即将到期的云资源。https://github.com/COOH-791/cloud_instance_sentry1. 用途说到云...

MySQL运维实战之ProxySQL(9.4)proxysql和后端MySQL自动切换

MySQL运维实战之ProxySQL(9.4)proxysql和后端MySQL自动切换

如上图架构,当后端MySQL主库出现问题,发生主备切换后,如何自动将ProxySQL的读写切换到新的主库上?可以通过mysql_replication_hostgroups表配置实现:insert&n...

大数据组件--Hive与Impala的异同

大数据组件--Hive与Impala的异同

一、同数据存储:使用相同的存储数据池都支持把数据存储于HDFS, HBase。元数据:两者使用相同的元数据。SQL语法:基本类似。二、异1)、底层运行使用的技术hive底层默认使用mapreduce引...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。