大数据集群部署规划（五）规划HDFS容量

南墨3年前 (2023-02-07)技术文章1533

HDFS DataNode以Block的形式，保存用户的文件和目录，同时在NameNode中生成一个文件对象，对应DataNode中每个文件、目录和Block。
NameNode中文件对象需要占用一定的内存，消耗内存大小随文件对象的生成而线性递增。DataNode实际保存的文件和目录越多，NameNode文件对象总量增加，需要消耗更多的内存，使集群现有硬件可能会难以满足业务需求，且导致集群难以扩展。
规划存储大量文件的HDFS系统容量，就是规划NameNode的容量规格和DataNode的容量规格，并根据容量设置参数。

容量规格

NameNode容量规格

●在NameNode中，每个文件对象对应DataNode中的一个文件、目录或Block。一个文件至少占用一个Block，默认每个Block大小为“134217728”即128MB，对应参数为“dfs.blocksize”。默认情况下一个文件小于128MB时，只占用一个Block；文件大于128MB时，占用Block数为：文件大小/128MB。目录不占用Block。根据“dfs.blocksize”，NameNode的文件对象数计算方法如下：主备NameNode支持最大文件对象的数量为300,000,000（最多对应150,000,000个小文件）。“dfs.namenode.max.objects”规定当前系统可生成的文件对象数，默认值为“0”表示不限制。

单个文件大小	文件对象数
小于128MB	1（对应文件）+1（对应Block）=2
大于128MB（例如128G）	1（对应文件）+1,024（对应128GB/128MB=1024 Block）=1,025

DataNode容量规格

在HDFS中，Block以副本的形式存储在DataNode中，默认副本数为“3”，对应参数为“dfs.replication”。集群中所有DataNode角色实例保存的Block总数为：HDFS Block * 3。集群中每个DataNode实例平均保存的Blocks= HDFS Block * 3/DataNode节点数。

项目	规格
单个DataNode实例支持最大Block副本数	5,000,000
单个DataNode实例上单个磁盘支持最大Block副本数	500,000

HDFS Block数	最少DataNode角色实例数
10,000,000	10,000,000 *3/5,000,000 = 6
50,000,000	50,000,000 *3/5,000,000 = 30
100,000,000	100,000,000 *3/5,000,000 = 60

内存参数设置

NameNode JVM参数配置规则

●NameNode文件数量和NameNode使用的内存大小成比例关系，文件对象变化时请修改默认值中的“-Xms**G -Xmx**G ”。推荐使用G1gc算法，参考值如下表所示。

文件对象数量	参考值
10,000,000	“-Xms6G -Xmx6G -XX:NewSize=512M -XX:MaxNewSize=512M”
20,000,000	“-Xms12G -Xmx12G -XX:NewSize=1G -XX:MaxNewSize=1G”
50,000,000	“-Xms32G -Xmx32G -XX:NewSize=3G -XX:MaxNewSize=3G”
100,000,000	“-Xms64G -Xmx64G -XX:NewSize=6G -XX:MaxNewSize=6G”
200,000,000	“-Xms96G -Xmx96G -XX:NewSize=9G -XX:MaxNewSize=9G”
300,000,000	“-Xms164G -Xmx164G -XX:NewSize=12G -XX:MaxNewSize=12G”

DataNode JVM参数配置规则

●集群中每个DataNode实例平均保存的Blocks= HDFS Block * 3/DataNode节点数，单个DataNode实例平均Block数量变化时请修改默认值中的“-Xms**G -Xmx**G"。推荐使用G1gc算法，参考值如下表所示。Xmx内存值对应DataNode节点块数阈值，每GB对应500000块数，用户可根据需要调整内存值。

单个DataNode实例平均Block数量	参考值
2,000,000	“-Xms6G -Xmx6G -XX:NewSize=512M -XX:MaxNewSize=512M”
5,000,000	“-Xms12G -Xmx12G -XX:NewSize=1G -XX:MaxNewSize=1G”

返回列表

上一篇：开源大数据集群部署（二）集群基础环境实施准备

下一篇：开源大数据集群部署（三）集群mysql数据库部署

大数据集群部署规划（五）规划HDFS容量

容量规格

NameNode容量规格

DataNode容量规格

内存参数设置

NameNode JVM参数配置规则

DataNode JVM参数配置规则

相关文章

MySQL运维实战之备份和恢复（8.8）恢复单表

xx客户大数据相关问题答疑

CDH实操--kudumaster迁移

gitlab的备份和还原

docker网络介绍

PG常用命令

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号

大数据集群部署规划（五）规划HDFS容量

容量规格

NameNode容量规格

DataNode容量规格

内存参数设置

NameNode JVM参数配置规则

DataNode JVM参数配置规则

相关文章

MySQL运维实战之备份和恢复（8.8）恢复单表

xx客户大数据相关问题答疑

CDH实操--kudumaster迁移

gitlab的备份和还原

docker网络介绍

PG常用命令

发表评论 取消回复

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?dcf8139ce75b768b71dccc5e589b983c"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

发表评论

©Copyrights 2016-2022 YUNCHE 浙ICP备2021017017号