Hadoop生产调优

楼高1年前技术文章454

一、NameNode内存生产配置

1.NameNode内存计算

每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?

128 * 1024 * 1024 * 1024  / 150Byte ≈  9.1亿

G  MB KB  Byte

2.Hadoop2.x系列,配置NameNode内存

NameNode内存默认2000m,如果服务器内存4G,NameNode内存可以配置3g。在hadoop-env.sh文件中配置如下:HADOOP_NAMENODE_OPTS=-Xmx3072m

3.Hadoop3.x系列,配置NameNode内存

二、NameNode心跳并发配置

对于大集群或者有大量客户端的集群来说,通常需要增大该参数。默认值是10

企业经验:dfs.namenode.handler.count,比如集群规模(DataNode台数)为3台时,此参数设置为21。使用python计算:print int(20*math.log(3))

三、开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用

四、NameNode多目录配置

NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性

五、DataNode多目录配置

DataNode可以配置成多个目录,每个目录存储的数据不一样(数据不是副本)

六、集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性)

七、服务器间数据均衡

根据实际情况进行调整。调整差不多可停止调整










相关文章

ES运维(七)添加sql插件

ES运维(七)添加sql插件

一、概述ElasticSearch安装SQL插件下载地址(中国大佬开发)二、集成sql插件1、下载es-sql插件下载地址: https://github.com/NLPchina/elastics...

ACK版本升级

ACK版本升级

需求:将ACK版本从1.14.8升级至1.16.9升级前注意事项:集群升级需要机器可以公网访问,以便下载升级所需的软件包。集群升级Kubernetes过程中,可能会有升级失败的情况,为了您的数据安全,...

阿里云ES跨账号数据迁移(reindex)

阿里云ES跨账号数据迁移(reindex)

1、背景与前置条件总的来说,阿里云es集群间数据迁移,有三中方式,logstash、reindex、镜像备份恢复,分别使用不同的场景,本文档主要讨论reindex方式进行账号下,ES跨集群迁移时,使用...

impala:大数据交互查询

impala:大数据交互查询

一、简介        Cloudera公司推出,提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用与Apache Hive相同的元数据,使用内存计算,兼顾数据仓...

MySQL性能优化(五)字符集不一致导致的隐式类型转换

MySQL性能优化(五)字符集不一致导致的隐式类型转换

上一篇文章中,我们介绍了隐式类型转换。这里我们介绍另一种形式的隐式类型转换,由于字符集不一致,导致关联查询无法使用索引。一个例子SELECT *  FROM funds...

HDP-Yarn开启CPU调度和隔离

HDP-Yarn开启CPU调度和隔离

进入到ambari主界面 点击yarn 点击config CPU Scheduling and Isolation 设置为enable修改高级配置点击ADVANCED搜索需要修改的配yarn.node...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。