Hadoop生产调优

楼高2年前技术文章1510

一、NameNode内存生产配置

1.NameNode内存计算

每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?

128 * 1024 * 1024 * 1024  / 150Byte ≈  9.1亿

G  MB KB  Byte

2.Hadoop2.x系列,配置NameNode内存

NameNode内存默认2000m,如果服务器内存4G,NameNode内存可以配置3g。在hadoop-env.sh文件中配置如下:HADOOP_NAMENODE_OPTS=-Xmx3072m

3.Hadoop3.x系列,配置NameNode内存

二、NameNode心跳并发配置

对于大集群或者有大量客户端的集群来说,通常需要增大该参数。默认值是10

企业经验:dfs.namenode.handler.count,比如集群规模(DataNode台数)为3台时,此参数设置为21。使用python计算:print int(20*math.log(3))

三、开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用

四、NameNode多目录配置

NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性

五、DataNode多目录配置

DataNode可以配置成多个目录,每个目录存储的数据不一样(数据不是副本)

六、集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性)

七、服务器间数据均衡

根据实际情况进行调整。调整差不多可停止调整










相关文章

Spark对接ranger

Spark对接ranger

1、包如图所示https://dtstack-download.oss-cn-hangzhou.aliyuncs.com/insight/insight-4em/release/hadoop/spar...

Hive调优

1.Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM students;在这种情况下,Hive可以简单地读取studen...

CDH实操--集群关闭Kerberos

CDH实操--集群关闭Kerberos

1、关掉整个集群2、zookeeper配置搜索kerberos,将enable Kerberos配置关掉3、hdfs配置在输入框中填入[hadoop.security.auth] 进行搜索将安全身份认...

华为云SQLServer 慢日志查看

华为云SQLServer 慢日志查看

一、背景华为云目前只支持 SQLServer 登录数据库,不支持查看慢日志。对于开启慢日志的实例,也只能通过将慢日志下载到本地 再远程连接目标实例数据库查看。本篇将华为云 SQLServer 实例出现...

Linux SSSD同步多ou用户

Linux SSSD同步多ou用户

1、背景在使用AD作为ldap服务器,使用sssd同步用户到服务器,但是AD中用户过多,分布在不同部门的ou中。如果全部进行同步,则会对ad服务器压力过大,用户缓存同步缓慢。需要能够指定多个ou进行同...

Linux下的IO统计工具:iostat,iotop

Linux下的IO统计工具:iostat,iotop

iostat      监视系统输入输出设备和CPU的使用情况。iostat命令 被用于监视系统输入输出设备和CPU的使用情况。它的特点是汇报磁盘活动统计情况,同时也会汇报出CPU使用情况。同vmst...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。