大数据集群部署规划（四）组件建议规格

南墨3年前 (2023-02-01)技术文章987

类型	指标名称	规格	说明
HDFS	单对NameNode最大文件数	1亿	-
	单DataNode最大block数	500万	GC参数 -Xmx32G
	单个DataNode磁盘最多block数	50万	-
	单个目录下最多文件目录数（不含递归）	100万	配置参数： dfs.namenode.fs-limits.max-directory-items
	每个文件中可包含的最大块数	100万	配置参数： dfs.namenode.fs-limits.max-blocks-per-file
	文件路径最大长度	8000	配置参数： dfs.namenode.fs-limits.max-component-length
	最小块大小	1048576	配置参数： dfs.namenode.fs-limits.min-block-size
	单个DataNode允许的最少正常磁盘个数	1	配置参数： dfs.datanode.failed.volumes.tolerated
Yarn	单NodeManager可分配的最大内存	物理内存*0.8	-
Yarn	单NodeManager可分配的最大vcore	逻辑CPU*1.25～2	虚拟机环境请勿超分
HBase	HBase RegionServer数量	128	单个HBase服务的RegionServer实例数
	单个RegionServer实例的Region数量	2000	每个RegionServer实例支持的最大Region数
	单个RegionServe支持的活跃Region数量	200	每个RegionServer实例支持的最大活跃Region数
Hive	单Hive表支持的分区数量	1万	单个Hive表建议的最大分区个数
	单表最大文件数量	100万	单个Hive表建议存储在HDFS上的最大文件个数
	最大分区数量	300万	单个Hive服务所有表建议的最大分区个数
	单HiveServer最大并发数	500	单个HiveServer实例支持的最大并发个数
Kafka	单Kafka集群节点数	256	-
Kafka	Topic名称最大长度	200字节	Topic名称长度限制在200字节以内
Solr	单Solr集群实例数	200	Solr进程数
	单SolrServer支持的Core数量	200	-
	单Core支持的记录数	1～4亿	-
	单SolrServer最大内存配置	32GB	采用G1的GC算法
	单SolrServer内存和磁盘最优比例	1:20	-
Elasticsearch	单Elasticsearch集群实例数	512	-
	单Elasticsearch集群支持的最大shard数	7万	单Elasticsearch集群最大数据量2PB
	单Elasticsearch集群支持的最大索引数	5000	-
	单Elasticsearch实例最大内存配置	32GB	采用G1的GC算法
	单shard支持的记录数	1～4亿	-
	单shard支持存储的数据量	20GB	-
	单EsNode实例，最大shard数	200	-
	单EsNode实例，最大存储量	5TB	-
	单EsNode实例内存和磁盘最优比例	1:50	热数据最优比例1:50 冷数据最优比例1:100
ZooKeeper	每个ZooKeeper实例，单个IP最大连接数	2000	-
	每个ZooKeeper实例，最大连接总数	20000	-
	默认参数情况下，最大ZNode数	400000	-
	单个ZNode大小	4M	-
Flume	单集群Flume最多实例数	32	Flume最大实例数
Presto	单集群计算实例数	1-32	-
	所有计算实例的Worker总个数上限	400	-
	单个计算实例的Coordinator/Worker的JVM下限	1GB	-
	单个计算实例的Coordinator个数	1-3	-
	单个计算实例的Worker个数	1-256	-
ClickHouse	单集群ClickHouse实例数	64	单集群ClickHouse支持的最大实例数
	每个ClickHouseServer实例，支持的最大表数量	5000	-
	每个ClickHouseServer实例，单个表支持的最大分区数	10000	-
Kudu	Master数量	一般3台即可	与复制因子数相同，为奇数
	tablet server数	不超过100	限制：300
	tablet数/tablet server（含副本）	1000+	限制：4000
	tablet数/表/tablet server（含副本）	60+	限制：60
	单台tablet server存储数据（含副本，压缩后）	8TB+	限制：10TB
	单tablet存储数据（超过会性能下降、合并失败、启动慢）	10G	限制：50G
	单tablet对应CPU核心数（不考虑副本，不考虑小表）	1	限制：多对1
	tablet server内存	16G以上最佳	限制：不低于4G

返回列表

上一篇：大数据集群部署规划（三）节点选配方案

下一篇：MySQL运维实战（1.1）安装部署：使用RPM进行安装部署

元数据管理

一、元数据概念元数据是关于数据的数据，主要用于跟踪、分类和分析。元数据大致定义为提供有关其他内容的信息的数据，但不提供有关数据实质的信息，例如图片本身或文本消息的内容。它可以帮助用户理解数据的含义，对...

ranger审计日志对接CDH solr

一、准备条件1、已安装完毕ranger-admin2、已在CDH上部署solr（注意在安装solr时更改下solr在zk上的节点信息）二、更改相关配置1、修改ranger-2.1.0-admin/co...

dbms_support包跟踪10046

系统默认没有安装dbms_support这个包，可以手动执行$ORACLE_HOME/rdbms/admin/dbmssupp.sql脚本来创建该包。安装dbms_support包： SQL>...

Go 错误处理与单元测试

1、错误处理1.1 如何定义错误在 Go 语言中，无论是在类型检查还是编译过程中，都是将错误看做值来对待，和 string 或者 integer 这些类型值并不差别。声明一个 string 类型变量和...

开源大数据集群部署（十二）Ranger 集成 hive

1、解压安装在hd1.dtstack.com主机上执行（一般选择hiveserver2节点）Ø 解压ranger-2.3.0-hive-plugin.tar.gz[root@hd1.dtstack.c...

kubernetes HPA

Horizontal Pod Autoscaling 可以根据 CPU 利用率自动伸缩一个 ReplicaSet、Deployment 或者中的 Pod 数量cat hpa-deploy.yaml a...

大数据集群部署规划（四）组件建议规格

相关文章

元数据管理

ranger审计日志对接CDH solr

dbms_support包跟踪10046

Go 错误处理与单元测试

开源大数据集群部署（十二）Ranger 集成 hive

kubernetes HPA

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号

大数据集群部署规划（四）组件建议规格

相关文章

元数据管理

ranger审计日志对接CDH solr

dbms_support包跟踪10046

Go 错误处理与单元测试

开源大数据集群部署（十二）Ranger 集成 hive

kubernetes HPA

发表评论 取消回复

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?dcf8139ce75b768b71dccc5e589b983c"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号