大数据集群部署规划(五)规划HDFS容量

南墨2年前技术文章1322

        HDFS DataNode以Block的形式,保存用户的文件和目录,同时在NameNode中生成一个文件对象,对应DataNode中每个文件、目录和Block。
NameNode中文件对象需要占用一定的内存,消耗内存大小随文件对象的生成而线性递增。DataNode实际保存的文件和目录越多,NameNode文件对象总量增加,需要消耗更多的内存,使集群现有硬件可能会难以满足业务需求,且导致集群难以扩展。
        规划存储大量文件的HDFS系统容量,就是规划NameNode的容量规格和DataNode的容量规格,并根据容量设置参数。

容量规格

NameNode容量规格

●在NameNode中,每个文件对象对应DataNode中的一个文件、目录或Block。一个文件至少占用一个Block,默认每个Block大小为“134217728”即128MB,对应参数为“dfs.blocksize”。默认情况下一个文件小于128MB时,只占用一个Block;文件大于128MB时,占用Block数为:文件大小/128MB。目录不占用Block。根据“dfs.blocksize”,NameNode的文件对象数计算方法如下:主备NameNode支持最大文件对象的数量为300,000,000(最多对应150,000,000个小文件)。“dfs.namenode.max.objects”规定当前系统可生成的文件对象数,默认值为“0”表示不限制。

单个文件大小

文件对象数

小于128MB

1(对应文件)+1(对应Block)=2

大于128MB(例如128G)

1(对应文件)+1,024(对应128GB/128MB=1024 Block)=1,025

DataNode容量规格

        在HDFS中,Block以副本的形式存储在DataNode中,默认副本数为“3”,对应参数为“dfs.replication”。集群中所有DataNode角色实例保存的Block总数为:HDFS Block * 3。集群中每个DataNode实例平均保存的Blocks= HDFS Block * 3/DataNode节点数。

项目

规格

单个DataNode实例支持最大Block副本数

5,000,000

单个DataNode实例上单个磁盘支持最大Block副本数

500,000


HDFS Block数

最少DataNode角色实例数

10,000,000

10,000,000 *3/5,000,000 = 6

50,000,000

50,000,000 *3/5,000,000 = 30

100,000,000

100,000,000 *3/5,000,000 = 60

内存参数设置

NameNode JVM参数配置规则

●NameNode文件数量和NameNode使用的内存大小成比例关系,文件对象变化时请修改默认值中的“-Xms**G -Xmx**G ”。推荐使用G1gc算法,参考值如下表所示。


文件对象数量

参考值

10,000,000

“-Xms6G -Xmx6G -XX:NewSize=512M -XX:MaxNewSize=512M”

20,000,000

“-Xms12G -Xmx12G -XX:NewSize=1G -XX:MaxNewSize=1G”

50,000,000

“-Xms32G -Xmx32G -XX:NewSize=3G -XX:MaxNewSize=3G”

100,000,000

“-Xms64G -Xmx64G -XX:NewSize=6G -XX:MaxNewSize=6G”

200,000,000

“-Xms96G -Xmx96G -XX:NewSize=9G -XX:MaxNewSize=9G”

300,000,000

“-Xms164G -Xmx164G -XX:NewSize=12G -XX:MaxNewSize=12G”

DataNode JVM参数配置规则

●集群中每个DataNode实例平均保存的Blocks= HDFS Block * 3/DataNode节点数,单个DataNode实例平均Block数量变化时请修改默认值中的“-Xms**G -Xmx**G"。推荐使用G1gc算法,参考值如下表所示。Xmx内存值对应DataNode节点块数阈值,每GB对应500000块数,用户可根据需要调整内存值。

单个DataNode实例平均Block数量

参考值

2,000,000

“-Xms6G -Xmx6G -XX:NewSize=512M -XX:MaxNewSize=512M”

5,000,000

“-Xms12G -Xmx12G -XX:NewSize=1G -XX:MaxNewSize=1G”



 

 


相关文章

解决grafana服务无法停止问题

解决grafana服务无法停止问题

背景:grafana服务无法停止,无论使用什么方式,哪怕使用kill -9 ,杀掉进程都会重新启动解决办法:1、将grafana加到系统服务里去systemctl enable grafana.ser...

某客户ERP华为云502错误案例

某客户ERP华为云502错误案例

1、客户反馈系统出现502错误图1上面的截图,我们大致可以看到浏览器显示的502错误,但是我们还有获知更多的信息。通过沟通我们可以确定:此功能为新上线功能,上线后一直是访问502,但是开发又找不到相关...

OSS bucket权限设置

OSS bucket权限设置

问题描述调用oss的bucket资源,开始的时候可以访问,过几分钟再访问的时候,就提示拒绝访问问题原因是因为相应的bucket权限为私有,私有权限在访问文件对象时,是存在鉴权URL,存在时间有效性,所...

DBMS_MONITOR包跟踪10046

该包是从Oracle 10g开始提供的,Oracle官方支持。等于10046 level 12。--跟踪当前会话: EXEC DBMS_MONITOR.SESSION_TRACE_ENABLE;...

MySQL运维实战之ProxySQL(9.6)SQL黑名单

利用mysql_query_rules表中的error_msg字段,可以实现SQL黑名单的功能。如果规则设置了error_msg,当SQL语句匹配这条规则时,proxysql会直接将error_msg...

SQL隐式转换导致索引失效_校验规则不一致

4.校验规则不一致导致索引失效首先可以通过检查表的校验规则核实是否存在隐式转化。--查看关联字段的字符集、校验规则SELECT TABLE_SCHEMA, TABLE_NAME, COLUMN_NAM...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。