大数据集群部署规划(四)组件建议规格
类型 | 指标名称 | 规格 | 说明 |
HDFS | 单对NameNode最大文件数 | 1亿 | - |
单DataNode最大block数 | 500万 | GC参数 -Xmx32G | |
单个DataNode磁盘最多block数 | 50万 | - | |
单个目录下最多文件目录数(不含递归) | 100万 | 配置参数: dfs.namenode.fs-limits.max-directory-items | |
每个文件中可包含的最大块数 | 100万 | 配置参数: dfs.namenode.fs-limits.max-blocks-per-file | |
文件路径最大长度 | 8000 | 配置参数: dfs.namenode.fs-limits.max-component-length | |
最小块大小 | 1048576 | 配置参数: dfs.namenode.fs-limits.min-block-size | |
单个DataNode允许的最少正常磁盘个数 | 1 | 配置参数: dfs.datanode.failed.volumes.tolerated | |
Yarn | 单NodeManager可分配的最大内存 | 物理内存*0.8 | - |
单NodeManager可分配的最大vcore | 逻辑CPU*1.25~2 | 虚拟机环境请勿超分 | |
HBase | HBase RegionServer数量 | 128 | 单个HBase服务的RegionServer实例数 |
单个RegionServer实例的Region数量 | 2000 | 每个RegionServer实例支持的最大Region数 | |
单个RegionServe支持的活跃Region数量 | 200 | 每个RegionServer实例支持的最大活跃Region数 | |
Hive | 单Hive表支持的分区数量 | 1万 | 单个Hive表建议的最大分区个数 |
单表最大文件数量 | 100万 | 单个Hive表建议存储在HDFS上的最大文件个数 | |
最大分区数量 | 300万 | 单个Hive服务所有表建议的最大分区个数 | |
单HiveServer最大并发数 | 500 | 单个HiveServer实例支持的最大并发个数 | |
Kafka | 单Kafka集群节点数 | 256 | - |
Topic名称最大长度 | 200字节 | Topic名称长度限制在200字节以内 | |
Solr | 单Solr集群实例数 | 200 | Solr进程数 |
单SolrServer支持的Core数量 | 200 | - | |
单Core支持的记录数 | 1~4亿 | - | |
单SolrServer最大内存配置 | 32GB | 采用G1的GC算法 | |
单SolrServer内存和磁盘最优比例 | 1:20 | - | |
Elasticsearch | 单Elasticsearch集群实例数 | 512 | - |
单Elasticsearch集群支持的最大shard数 | 7万 | 单Elasticsearch集群最大数据量2PB | |
单Elasticsearch集群支持的最大索引数 | 5000 | - | |
单Elasticsearch实例最大内存配置 | 32GB | 采用G1的GC算法 | |
单shard支持的记录数 | 1~4亿 | - | |
单shard支持存储的数据量 | 20GB | - | |
单EsNode实例,最大shard数 | 200 | - | |
单EsNode实例,最大存储量 | 5TB | - | |
单EsNode实例内存和磁盘最优比例 | 1:50 | 热数据最优比例1:50 冷数据最优比例1:100 | |
ZooKeeper | 每个ZooKeeper实例,单个IP最大连接数 | 2000 | - |
每个ZooKeeper实例,最大连接总数 | 20000 | - | |
默认参数情况下,最大ZNode数 | 400000 | - | |
单个ZNode大小 | 4M | - | |
Flume | 单集群Flume最多实例数 | 32 | Flume最大实例数 |
Presto | 单集群计算实例数 | 1-32 | - |
所有计算实例的Worker总个数上限 | 400 | - | |
单个计算实例的Coordinator/Worker的JVM下限 | 1GB | - | |
单个计算实例的Coordinator个数 | 1-3 | - | |
单个计算实例的Worker个数 | 1-256 | - | |
ClickHouse | 单集群ClickHouse实例数 | 64 | 单集群ClickHouse支持的最大实例数 |
每个ClickHouseServer实例,支持的最大表数量 | 5000 | - | |
每个ClickHouseServer实例,单个表支持的最大分区数 | 10000 | - | |
Kudu | Master数量 | 一般3台即可 | 与复制因子数相同,为奇数 |
tablet server数 | 不超过100 | 限制:300 | |
tablet数/tablet server(含副本) | 1000+ | 限制:4000 | |
tablet数/表/tablet server(含副本) | 60+ | 限制:60 | |
单台tablet server存储数据(含副本,压缩后) | 8TB+ | 限制:10TB | |
单tablet存储数据(超过会性能下降、合并失败、启动慢) | 10G | 限制:50G | |
单tablet对应CPU核心数(不考虑副本,不考虑小表) | 1 | 限制:多对1 | |
tablet server内存 | 16G以上最佳 | 限制:不低于4G |