Hdfs3.x新特性详解

九月2年前 (2023-08-07)技术文章1453

HDFS Disk Balancer(磁盘均衡器)

HDFS Disk Balancer与HDFS Balancer的区别？

两者都是实现负载均衡功能

HDFS Balancer是之前Hadoop2.x中本身存在的，主要是多个DataNode节点之间的数据的平衡。

HDFS Disk Balancer是Hadoop3中新出现的，主要是为了DataNode节点内部的磁盘的负载均衡，一个DataNode节点中包含多个磁盘，如果一个磁盘数据比较多，HDFS Disk Balancer就会将这个磁盘中的数据进行迁移，迁移到datanode别的磁盘中。

HDFS Disk Balancer功能

数据传播报告、磁盘平衡，主要是根据卷（磁盘）平衡密度和节点平衡密度（越低越好）进行磁盘平衡。

HDFS Disk Balancer相关操作

Hadoop3中默认开启disk balancer ，可以从hdfs-site.xml中配置dfs.disk.balancer.enabled参数值进行选择是否开启该功能。

plan计划
hdfs diskbalancer -plan <datanode>
execute执行:针对为其生成执行计划的datanode
hdfs diskbalancer -execute <Json file path>
query查询:从运行计划的datanode获取磁盘平衡器的当前状态
hdfs diskbalancer -query <datanode>
cancel取消：取消运行计划
hdfs diskbalancer -cancel <Json file path>
hdfs diskbalancer -cancel planid node <nodename>
report汇报：
hdfs diskbalancer -fs hdfs路径 -report

HDFS Erasure Coding(纠删码)

产生背景：3副本策略引起的磁盘和网络带宽的消耗

Erasure Coding：是一种编码容错技术，最早开始用于通信行业数据传输中的数据恢复，通过对数据分块，计算出校验数据，使每个部分的数据产生关联性，当一部分数据块丢失时，可以利用数据块和校验块反向推算出丢失的数据块。

图2.png

原理：

图3.png

HDFS Erasure Coding架构

为了支持纠删码，HDFS做了一些架构上的调整。

namenode扩展

条带化管理，即hdfs文件在逻辑上由block group（块组）管理，每个块组包含一定数量的block数。

客户端扩展

客户端读写路径得到增强，可以并行处理块组中的多个内部块。

datanode扩展

old:datanode向namenode定时反馈数据block的信息，namenode汇总后，和记录的信息进行对比，有缺失的进行调整补充。

new:datanode运行一个附加的ErasureCodingWorker（ECWorker）的任务,对失败的纠删编码块进行后台恢复，namenode检测到EC块后，任意选择datanode进行恢复。

纠删码策略

图44.png

Intel ISA-L

为了更好的支持EC，在硬件上作出的优化

图45.png

HDFS Erasure Coding部署

1、首先考虑cpu、带宽和机架数量这些集群硬件配置。

2、设置纠删码策略：纠删码策略参数dfs.namenode.ec.system.default.policy指定，默认是RS-6-3-1024K,其他策略是禁用的，可以通过hdfs ec [-enablePolicy -policy <policyname>] 命令启动策略。

3、启用英特尔ISA-L（智能存储加速库）

图46.png

4、EC命令

hdfs ec命令

图4.png

图5.png

图6.png

cdh6.0.1中涉及到erasure coding的页面参数配置

图7.png

标签: 大数据运维 CDH

返回列表

上一篇：Yarn界面详解

下一篇：Spark优化之配置参数

相关文章

dolphinscheduler部署-FAQ

dolphinscheduler部署-FAQ

如果是cdh集群会遇到一个问题5678端口被占用这是因为cdh的agent用了5678那我们改下配置文件文件：/opt/apache-dolphinscheduler-3.1.8-bin/st...

HDP实操--NameNode开启高可用

HDP实操--NameNode开启高可用

为了确定在namenode组件失败后集群中有其他的namenode可以工作，需要对hdp集群配置高可用，当前我们配置的非安全集群的高可用。前置条件：（1）确保你的集群至少有3个节点并且至少有3个Apa...

trino组件对接alluxio（三）

trino组件对接alluxio（三）

本文是基于已经部署了trino和alluxio的基础上，进行的trino与alluxio的组件对接，alluxio已经开启了高可用模式。安装部署1、增加alluxio配置在core-site.xml和...

kafka模拟消费报错 ISR缺失指定offset提取数据失败场景

kafka模拟消费报错 ISR缺失指定offset提取数据失败场景

测试集群信息kafka版本：3.0.0172.16.120.236 kafka-id: 0172.16.121.150 kafka-id: 1172.16.121.225 kafka-id: 2...

CDP实操--Ranger开启ldap认证

CDP实操--Ranger开启ldap认证

集群中已经部署了ldap主主模式，并且使用haproxy进行负载均衡，keepalive提供了虚拟ip。页面配置：Ranger进行同步用户：验证：使用ldap用户登录页面：FAQ:1、admin超级管...

ES运维（八）添加IK分词器

ES运维（八）添加IK分词器

一、概述ES自带standard analyzer、simple analyzer、whitespace analyzer、stop analyzer、language analyzer、patter...

发表评论