Hadoop生产调优

楼高2年前 (2023-05-23)技术文章1797

一、NameNode内存生产配置

1.NameNode内存计算

每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？

128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿

G MB KB Byte

2.Hadoop2.x系列，配置NameNode内存

NameNode内存默认2000m，如果服务器内存4G，NameNode内存可以配置3g。在hadoop-env.sh文件中配置如下：HADOOP_NAMENODE_OPTS=-Xmx3072m

3.Hadoop3.x系列，配置NameNode内存

对于大集群或者有大量客户端的集群来说，通常需要增大该参数。默认值是10

企业经验：dfs.namenode.handler.count，比如集群规模（DataNode台数）为3台时，此参数设置为21。使用python计算：print int(20*math.log(3))

开启回收站功能，可以将删除的文件在不超时的情况下，恢复原数据，起到防止误删除、备份等作用

NameNode的本地目录可以配置成多个，且每个目录存放内容相同，增加了可靠性

DataNode可以配置成多个目录，每个目录存储的数据不一样（数据不是副本）

生产环境，由于硬盘空间不足，往往需要增加一块硬盘。刚加载的硬盘没有数据时，可以执行磁盘数据均衡命令。（Hadoop3.x新特性）

根据实际情况进行调整。调整差不多可停止调整

返回列表

1 环境规划1.1 物理环境规划ECS 类型服务器类型服务器配置操作系统版本Oracle 版本阿里云g7se8C 32GCentOS 7.911.2.0.4.01.2 磁盘规划DBNAMEHOSTNA...

Pod Eviction 简介Pod Eviction 是k8s一个特色功能，它在某些场景下应用，如节点NotReady、Node节点资源不足，把pod驱逐至其它Node节点。从发起模块的角度，pod...

rabbitmq共有两种迁移方案：迁移方式优点缺点可用性原理文件导入方式数据100%成功业务要修改地址暂停提供服务可以使用拷贝元数据方式添加集群方式不可用，数据会丢失（添加机器之前会清空之前所有的信息...

1、背景由于trino 默认没有开启用户认证体系，需要ldap用户进行认证。开启tls和ldap用户认证。提高安全性2、配置前置条件。trino 集群已经部署完成ldap 服务openjdk 版本大于...

本节详细介绍企业级大数据架构中的第六部分，数据授权和审计管理1.Ranger简介Apache Ranger是一款被设计成全面掌管Hadoop生态系统的数据安全管理框架，为Hadoop生态系统...

一、AmpNmp.DatabaseCompare工具1、工具特点：优点：比较两个数据库全部表结构的差异，包括表名、存储引擎、字符集、注释的不同，以及每张表中的字段名、数据类型、字符集、默认值、注释的不...