Hbase热点现象

浩客2年前技术文章948

热点现象

HBase热点现象是指在分布式存储系统HBase中,由于数据访问不均衡而导致部分Region Server负载过重的情况。这种不均衡通常是由于某些特定的数据行或列族频繁地被访问,从而导致某个或某些Region Server成为整个系统的瓶颈。

常见的热点现象包括“写热点”和“读热点”。写热点指的是某些特定的数据行或列族被持续高频率地写入,导致某个Region Server负责处理大量的写请求,而其他Region Server负载较轻。这会造成该Region Server的负载过重,容易引发延迟增加、写入速度下降等问题。读热点则是某些特定的数据行或列族被频繁地读取,导致某个Region Server成为大部分读请求的瓶颈,影响整个系统的读取性能。


热点现象出现的原因

1、数据倾斜:某些特定的数据行或列族被频繁地访问或写入,可能是由于业务需求、数据特性等因素导致。这会导致部分Region Server承载了大部分的读写负载,造成不均衡。

2、rowkey设计不合理。

3、热点发生在大量的client直接访问集群的一个或极少数个节点(访问可能是读,写或者其他操作)。大量访问会使热点region所在的单个机器超出自身承受能力,引起性能下降甚至region不可用,这也会影响同一个RegionServer上的其他region,由于主机无法服务其他region的请求。


热点现象解决办法

为了防止热点问题,对rowkey进行合理设计使得不同行在同一个region,但是在更多数据情况下,数据应该被写入集群的多个region。

1、加盐:在HBase中,可以使用加盐来增加数据的分布均匀性和查询性能。加盐的基本思想是在数据的行键(Rowkey)中添加随机生成的字符串或数字作为前缀,使得相似的行键被分散到不同的Region中存储。在rowkey的前面增加随机数,使得它和之前的rowkey的开头不同。分配的前缀种类数量应该和你想使用数据分散到不同的region的数量一致。

2、哈希:哈希可以使负载分散到整个集群,但是读却是可以预测的。使用确定的哈希可以让客户端重构完整的rowkey,可以使用get操作准确获取某一个行数据

3、反转:反转固定长度或者数字格式的rowkey。这样可以使得rowkey中经常改变的部分(最没有意义的部分)放在前面。这样可以有效的随机rowkey,但是牺牲了rowkey的有序性。

4、时间戳反转:一个常见的数据处理问题是快速获取数据的最近版本,使用反转的时间戳作为rowkey的一部分对这个问题十分有用,可以用 Long.Max_Value - timestamp 追加到key的末尾,例如[key][reverse_timestamp],[key]的最新值可以通过scan [key]获得[key]的第一条记录,因为HBase中rowkey是有序的,第一条记录是最后录入的数据。

5、HBase建表预分区:合理设计HBase数据表的预分区,通过制定好的分区策略将数据均匀地分布在不同的Region中。这样可以避免部分Region Server承载过多的负载,减轻热点现象的影响


相关文章

kafka高可靠性相关配置

kafka高可靠性相关配置

为保证高可靠可以通过以下方面进行设置:1) 物理机器场景配置项配置说明高可靠高性能不间断电源配置,防止服务器异常断电RAID卡电池配置,防止服务器异常断电RAID卡写缓存开启,提高性能RAID 1配置...

Elasticsearch索引慢日志配置

设置索引慢日志各种级别下的阀值,同时也支持多索引(索引名按逗号分隔)和全索引(用*通配符)操作。curl -XPUT --tlsv1.2 --negotiate -k -v -u : 'htt...

hive执行count和spark执行count结果不一致

hive执行count和spark执行count结果不一致

【组件版本】hive on mr、spark【问题现象】hive 执行count语句,结果条数为0,spark执行count语句能正常显示count数【详细描述】hive 执行count语句:显示co...

Tcpdump抓包总结

Tcpdump抓包总结

一、简介tcpdump是一个用于截取网络分组,并输出分组内容的工具。凭借强大的功能和灵活的截取策略,使其成为类UNIX系统下用于网络分析和问题排查的首选工具 tcpdump提供了源代码,公开了接口,因...

Kafka Leader 和 Follower 故障

Kafka Leader 和 Follower 故障

前言:       在kafka集群工作过程中,难免会碰到某个kafka服务实例宕机或挂掉的情况,服务一旦挂掉,意味着某个分区中的leader或follower将不能正常工作了       具体来说,...

pgbench 压测工具

pgbench 压测工具

一、基本参数pgbench工具是Postgres自带的一款轻量型基准压测工具。它自定义相关场景下脚本进行1.1 初始化参数参数含义-i / --initialize调用初始化模式-I init_ste...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。