大数据集群部署规划(四)组件建议规格

南墨1年前技术文章390

类型

指标名称

规格

说明

HDFS

单对NameNode最大文件数

1亿

-

单DataNode最大block数

500万

GC参数 -Xmx32G

单个DataNode磁盘最多block数

50万

-

单个目录下最多文件目录数(不含递归)

100万

配置参数:

dfs.namenode.fs-limits.max-directory-items

每个文件中可包含的最大块数

100万

配置参数:

dfs.namenode.fs-limits.max-blocks-per-file

文件路径最大长度

8000

配置参数:

dfs.namenode.fs-limits.max-component-length

最小块大小

1048576

配置参数:

dfs.namenode.fs-limits.min-block-size

单个DataNode允许的最少正常磁盘个数

1

配置参数:

dfs.datanode.failed.volumes.tolerated

Yarn

单NodeManager可分配的最大内存

物理内存*0.8

-

单NodeManager可分配的最大vcore

逻辑CPU*1.25~2

虚拟机环境请勿超分

HBase

HBase RegionServer数量

128

单个HBase服务的RegionServer实例数

单个RegionServer实例的Region数量

2000

每个RegionServer实例支持的最大Region数

单个RegionServe支持的活跃Region数量

200

每个RegionServer实例支持的最大活跃Region数

Hive

单Hive表支持的分区数量

1万

单个Hive表建议的最大分区个数

单表最大文件数量

100万

单个Hive表建议存储在HDFS上的最大文件个数

最大分区数量

300万

单个Hive服务所有表建议的最大分区个数

单HiveServer最大并发数

500

单个HiveServer实例支持的最大并发个数

Kafka

单Kafka集群节点数

256

-

Topic名称最大长度

200字节

Topic名称长度限制在200字节以内

Solr

单Solr集群实例数

200

Solr进程数

单SolrServer支持的Core数量

200

-

单Core支持的记录数

1~4亿

-

单SolrServer最大内存配置

32GB

采用G1的GC算法

单SolrServer内存和磁盘最优比例

1:20

-

Elasticsearch

单Elasticsearch集群实例数

512

-

单Elasticsearch集群支持的最大shard数

7万

单Elasticsearch集群最大数据量2PB

单Elasticsearch集群支持的最大索引数

5000

-

单Elasticsearch实例最大内存配置

32GB

采用G1的GC算法

单shard支持的记录数

1~4亿

-

单shard支持存储的数据量

20GB

-

单EsNode实例,最大shard数

200

-

单EsNode实例,最大存储量

5TB

-

单EsNode实例内存和磁盘最优比例

1:50

热数据最优比例1:50

冷数据最优比例1:100

ZooKeeper

每个ZooKeeper实例,单个IP最大连接数

2000

-

每个ZooKeeper实例,最大连接总数

20000

-

默认参数情况下,最大ZNode数

400000

-

单个ZNode大小

4M

-

Flume

单集群Flume最多实例数

32

Flume最大实例数

Presto

单集群计算实例数

1-32

-

所有计算实例的Worker总个数上限

400

-

单个计算实例的Coordinator/Worker的JVM下限

1GB

-

单个计算实例的Coordinator个数

1-3

-

单个计算实例的Worker个数

1-256

-

ClickHouse

单集群ClickHouse实例数

64

单集群ClickHouse支持的最大实例数

每个ClickHouseServer实例,支持的最大表数量

5000

-

每个ClickHouseServer实例,单个表支持的最大分区数

10000

-

Kudu

Master数量

一般3台即可

与复制因子数相同,为奇数

tablet server数

不超过100

限制:300

tablet数/tablet server(含副本)

1000+

限制:4000

tablet数/表/tablet server(含副本)

60+

限制:60

单台tablet server存储数据(含副本,压缩后)

8TB+

限制:10TB

单tablet存储数据(超过会性能下降、合并失败、启动慢)

10G

限制:50G

单tablet对应CPU核心数(不考虑副本,不考虑小表)

1

限制:多对1

tablet server内存

16G以上最佳

限制:不低于4G

 


相关文章

NameNode和SecondaryNameNode工作详解

NameNode和SecondaryNameNode工作详解

一、NN和SNN工作机制我们可以思考一个问题:NameNode中的元数据是存储在哪里的首先假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问NameNode的元数据,响应客户请求,...

 MySQL性能优化(十)in参数列表过长导致的性能问题

MySQL性能优化(十)in参数列表过长导致的性能问题

有时候可能有人会问:where条件中使用in和or有什么区别,哪种写法性能更好?in参数个数有没有限制?下面就是一个由于in参数列表过长导致的性能问题。一个例子当时使用的是mysql 5.6版本SEL...

Linux下的IO统计工具:iostat,iotop

Linux下的IO统计工具:iostat,iotop

iostat      监视系统输入输出设备和CPU的使用情况。iostat命令 被用于监视系统输入输出设备和CPU的使用情况。它的特点是汇报磁盘活动统计情况,同时也会汇报出CPU使用情况。同vmst...

ES模糊查询(Wildcard Query)导致CPU打满问题

ES模糊查询(Wildcard Query)导致CPU打满问题

一、概述    Wildcard Query是es中实现模糊查询的一种方式,尤其对有SQL经验的人,会常常习惯于它,毕竟这是和SQL里like操作最相似的查询方式,最近一个客户的es集群就在这上面踩了...

Hadoop3.2.4纠删码介绍(一)

Hadoop3.2.4纠删码介绍(一)

1、介绍纠删码是Hadoop3新加入的功能,之前的HDFS都是采用副本方式容错,默认情况下,一个文件有3个副本,可以容忍任意2个副本(DataNode)不可用,这样提高了数据的可用性,但也带来了2倍的...

Scylladb部署

Scylladb部署一、部署在centos 7.9上部署scylla-4.2下面步骤都需要root权限或者sudo权限1、添加scylladb 回购文件和yum源yum install epel-re...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。