Hbase压缩算法

南墨2年前 (2023-10-07)技术文章1443

HBase包含两类压缩机制：DataBlockEncode前缀压缩和文件级别的压缩Compress。

对于DataBlockEncode前缀压缩，提供了三种算法：PREFIX\DIFF\FAST_DIFF，其中FAST_DIFF的压缩比和性能最优，推荐使用。

对于文件级别的压缩，也提供了三种压缩算法：LZO\GZ\SNAPPY。

三种压缩算法比较如下：

一般情况下，选择FAST_DIFF（使用该算法会提高系统性能并降低系统所需容量，默认所有计算公式均使用此算法）和SNAPPY压缩，并使用HDFS的3副本，基本可以认为，

原始业务数据量大小：存入HBase后数据量大小（占用HDFS文件系统的容量大小）≈1：1.3

返回列表

select db.NAME as db_name,tb.TBL_NAME as table_name,case tb.TBL_TYPE when 'MANAGED_TABLE...

磁盘分区脚本名称：mg_fdisk.sh#!/bin/bashif [ "$#" -ne 1 ]; then echo "请传入磁盘参数" exit 1fidisk=$1# 检查磁盘是否存在if...

背景集群中，发现hbase 的compaction 队列一直增长，出现hang住的情况，排查发现，一些表的region集中在某些机器上，分布不均匀。但是排查发现auto balancer是默认开启的。...

1.1Hive/impala的Ranger策略验证确保hive-on-tez的配置页面里已经勾选了“Ranger Service”在terminal中，kerberos登录到hive，用如下命令登录b...

一、产品简介EasyCare大数据自动化巡检平台是袋鼠云自研的一款大数据集群自动化巡检调优运维平台，支持针对各类大数据组件、服务接口、其他组件等可用性、稳定性进行自动巡检，实现主动实时监控，准确定位问...

一、在新集群中创建hive数据库，作为新集群中的元数据库。注意点：创建hive数据库时注意用户和用户的权限及使用的编码格式一致。查看旧集群中角色权限和编码格式，在新的hive元数据库中设置相同的角色权...