Hbase压缩算法

南墨2年前技术文章1174

HBase包含两类压缩机制:DataBlockEncode前缀压缩和文件级别的压缩Compress

对于DataBlockEncode前缀压缩,提供了三种算法:PREFIX\DIFF\FAST_DIFF,其中FAST_DIFF的压缩比和性能最优,推荐使用。

对于文件级别的压缩,也提供了三种压缩算法:LZO\GZ\SNAPPY。

三种压缩算法比较如下:

  • GZ的压缩率最高,但是其实CPU密集型的,对CPU的消耗比其他算法要多,压缩和解压速度也慢。

  • LZO的压缩率居中,比GZIP要低一些,但是压缩和解压速度明显要比GZIP快很多,其中解压速度快的更多。

  • SNAPPY的压缩率最低,而压缩要稍微比LZO要快一些,解压速度与LZO相当,能够在CPU和IO之间较为平衡。

一般情况下,选择FAST_DIFF(使用该算法会提高系统性能并降低系统所需容量,默认所有计算公式均使用此算法)和SNAPPY压缩,并使用HDFS3副本,基本可以认为,

原始业务数据量大小:存入HBase后数据量大小(占用HDFS文件系统的容量大小)≈1:1.3


相关文章

Impala 操作命令

Impala 操作命令

Impala的外部shell选项描述-h, --help显示帮助信息-v or --version显示版本信息-i hostname, --impalad=hostname 指定连接运行 impala...

Spark对接ranger

Spark对接ranger

1、包如图所示https://dtstack-download.oss-cn-hangzhou.aliyuncs.com/insight/insight-4em/release/hadoop/spar...

ubuntu20.04服务器安全策略设定

ubuntu20.04服务器安全策略设定

密码策略1、经核查,服务器用户身份标识唯一,口令存储在服务器中采用SHA512算法,服务器配置口令复杂度,口令要求8位以上,字母、数字、特殊字符组成,口令180天定期更换。# SHA512算法查看ca...

MySQL mgr部署文档

MySQL mgr部署文档

一、环境说明1.1服务器信息1.2目录规划1.2目录规划二、环境配置2.1 关闭防火墙和selinuxservice iptabls stop /etc/selinux/conf...

Prometheus+Consul服务自动发现监控

Prometheus+Consul服务自动发现监控

为什么使用consulprometheus作为新一代的监控利器,有很多优点,部署起来也十分方便。部署prometheus后自然会需要使用prometheus去监控物理机或者虚拟机的资源,这里就需要使用...

Kafka日志管理

Kafka在运行时会生成大量的日志记录信息,包含了运行状态、错误信息、性能指标等。这些日志文件会占用很大的磁盘空间,过多的日志文件也会影响Kafka的性能,因此需要采取一些日志管理措施来清理无用的日志...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。