Hbase压缩算法

南墨2年前技术文章927

HBase包含两类压缩机制:DataBlockEncode前缀压缩和文件级别的压缩Compress

对于DataBlockEncode前缀压缩,提供了三种算法:PREFIX\DIFF\FAST_DIFF,其中FAST_DIFF的压缩比和性能最优,推荐使用。

对于文件级别的压缩,也提供了三种压缩算法:LZO\GZ\SNAPPY。

三种压缩算法比较如下:

  • GZ的压缩率最高,但是其实CPU密集型的,对CPU的消耗比其他算法要多,压缩和解压速度也慢。

  • LZO的压缩率居中,比GZIP要低一些,但是压缩和解压速度明显要比GZIP快很多,其中解压速度快的更多。

  • SNAPPY的压缩率最低,而压缩要稍微比LZO要快一些,解压速度与LZO相当,能够在CPU和IO之间较为平衡。

一般情况下,选择FAST_DIFF(使用该算法会提高系统性能并降低系统所需容量,默认所有计算公式均使用此算法)和SNAPPY压缩,并使用HDFS3副本,基本可以认为,

原始业务数据量大小:存入HBase后数据量大小(占用HDFS文件系统的容量大小)≈1:1.3


相关文章

flink算子优化

flink算子优化

这里先看两个任务的逻辑执行图:图一:全部打散的任务执行图图二:使用slot资源共享的任务执行图图一和图二中的两个任务是同一个任务,不同点是图一将所有的算子全部打散,在代码中使用了以下逻辑:,或者就是禁...

Logstash迁移ES集群

一、背景介绍   logstash 支持从一个 ES 集群中读取数据然后写入到另一个 ES 集群,因此可以使用 logstash 进行数据迁移,使用 logstash 进行迁移前,需要注意以下几点:需...

MySQL运维实战之备份和恢复(8.8)恢复单表

xtrabackup支持单表恢复。如果一个表使用了独立表空间(innodb_file_per_table=1),就可以单独恢复这个表。1、Prepareprepare时带上参数--export,xtr...

压测实操--kafka broker压测方案

压测实操--kafka broker压测方案

环境信息:操作系统centos7.9,kafka版本为hdp集群中的2.0版本。kafka broker参数num.replica.fetchers:副本抓取的相应参数,如果发生ISR频繁进出的情况或...

mcasttest-tool组播检测工具

mcasttest-tool组播检测工具

检测组播mcasttest-tool是oracle组播检测工具,组播是oracle 11.2.0.2开始的新功能1、上传mcasttest工具解压并授权[root@rac1 soft]# cd /u0...

EM部署HBASE

EM部署HBASE

先获取HBASE包,放在em节点中,在HBASE包所在的服务器上执行,127.0.0.1指向的是em服务器的ip。# {package_name}表示为具体的tar包名称 curl http://1...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。