Hbase压缩算法

南墨2年前技术文章1443

HBase包含两类压缩机制:DataBlockEncode前缀压缩和文件级别的压缩Compress

对于DataBlockEncode前缀压缩,提供了三种算法:PREFIX\DIFF\FAST_DIFF,其中FAST_DIFF的压缩比和性能最优,推荐使用。

对于文件级别的压缩,也提供了三种压缩算法:LZO\GZ\SNAPPY。

三种压缩算法比较如下:

  • GZ的压缩率最高,但是其实CPU密集型的,对CPU的消耗比其他算法要多,压缩和解压速度也慢。

  • LZO的压缩率居中,比GZIP要低一些,但是压缩和解压速度明显要比GZIP快很多,其中解压速度快的更多。

  • SNAPPY的压缩率最低,而压缩要稍微比LZO要快一些,解压速度与LZO相当,能够在CPU和IO之间较为平衡。

一般情况下,选择FAST_DIFF(使用该算法会提高系统性能并降低系统所需容量,默认所有计算公式均使用此算法)和SNAPPY压缩,并使用HDFS3副本,基本可以认为,

原始业务数据量大小:存入HBase后数据量大小(占用HDFS文件系统的容量大小)≈1:1.3


相关文章

hive 通过元数据导出所有表信息

select db.NAME as db_name,tb.TBL_NAME as table_name,case tb.TBL_TYPE when 'MANAGED_TABLE...

磁盘分盘脚本分享

磁盘分区脚本名称:mg_fdisk.sh#!/bin/bashif [ "$#" -ne 1 ]; then  echo "请传入磁盘参数"  exit 1fidisk=$1# 检查磁盘是否存在if...

hbase-auto balancer失效

hbase-auto balancer失效

背景集群中,发现hbase 的compaction 队列一直增长,出现hang住的情况,排查发现,一些表的region集中在某些机器上,分布不均匀。但是排查发现auto balancer是默认开启的。...

CDP实操--配置Hive/Impala的Ranger策略验证(二)

CDP实操--配置Hive/Impala的Ranger策略验证(二)

1.1Hive/impala的Ranger策略验证确保hive-on-tez的配置页面里已经勾选了“Ranger Service”在terminal中,kerberos登录到hive,用如下命令登录b...

大数据自动化巡检系统(一)

大数据自动化巡检系统(一)

一、产品简介EasyCare大数据自动化巡检平台是袋鼠云自研的一款大数据集群自动化巡检调优运维平台,支持针对各类大数据组件、服务接口、其他组件等可用性、稳定性进行自动巡检,实现主动实时监控,准确定位问...

hive元数据迁移

hive元数据迁移

一、在新集群中创建hive数据库,作为新集群中的元数据库。注意点:创建hive数据库时注意用户和用户的权限及使用的编码格式一致。查看旧集群中角色权限和编码格式,在新的hive元数据库中设置相同的角色权...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。