Hdfs3.x新特性详解

九月2年前技术文章951

HDFS Disk Balancer(磁盘均衡器)

HDFS Disk Balancer与HDFS Balancer的区别?

两者都是实现负载均衡功能

HDFS Balancer是之前Hadoop2.x中本身存在的,主要是多个DataNode节点之间的数据的平衡。

HDFS Disk Balancer是Hadoop3中新出现的,主要是为了DataNode节点内部的磁盘的负载均衡,一个DataNode节点中包含多个磁盘,如果一个磁盘数据比较多,HDFS Disk Balancer就会将这个磁盘中的数据进行迁移,迁移到datanode别的磁盘中。

HDFS Disk Balancer功能

数据传播报告、磁盘平衡,主要是根据卷(磁盘)平衡密度和节点平衡密度(越低越好)进行磁盘平衡。

HDFS Disk Balancer相关操作

Hadoop3中默认开启disk balancer ,可以从hdfs-site.xml中配置dfs.disk.balancer.enabled参数值进行选择是否开启该功能。

plan计划
hdfs diskbalancer -plan <datanode>
execute执行:针对为其生成执行计划的datanode
hdfs diskbalancer -execute <Json file path>
query查询:从运行计划的datanode获取磁盘平衡器的当前状态
hdfs diskbalancer -query <datanode>
cancel取消:取消运行计划
hdfs diskbalancer -cancel <Json file path>
hdfs diskbalancer -cancel planid node <nodename>
report汇报:
hdfs diskbalancer -fs hdfs路径 -report

HDFS Erasure Coding(纠删码)

产生背景:3副本策略引起的磁盘和网络带宽的消耗

image.png

Erasure Coding:是一种编码容错技术,最早开始用于通信行业数据传输中的数据恢复,通过对数据分块,计算出校验数据,使每个部分的数据产生关联性,当一部分数据块丢失时,可以利用数据块和校验块反向推算出丢失的数据块。

图2.png

原理:

图3.png


HDFS Erasure Coding架构

为了支持纠删码,HDFS做了一些架构上的调整。

namenode扩展

条带化管理,即hdfs文件在逻辑上由block group(块组)管理,每个块组包含一定数量的block数。

客户端扩展

客户端读写路径得到增强,可以并行处理块组中的多个内部块。

datanode扩展

old:datanode向namenode定时反馈数据block的信息,namenode汇总后,和记录的信息进行对比,有缺失的进行调整补充。

new:datanode运行一个附加的ErasureCodingWorker(ECWorker)的任务,对失败的纠删编码块进行后台恢复,namenode检测到EC块后,任意选择datanode进行恢复。

纠删码策略

图44.png

Intel ISA-L

为了更好的支持EC,在硬件上作出的优化

图45.png

HDFS Erasure Coding部署

1、首先考虑cpu、带宽和机架数量这些集群硬件配置。

2、设置纠删码策略:纠删码策略参数dfs.namenode.ec.system.default.policy指定,默认是RS-6-3-1024K,其他策略是禁用的,可以通过hdfs ec [-enablePolicy  -policy <policyname>] 命令启动策略。

3、启用英特尔ISA-L(智能存储加速库)

图46.png

4、EC命令

hdfs ec命令

图4.png

图5.png

图6.png

cdh6.0.1中涉及到erasure coding的页面参数配置

图7.png





相关文章

CDH实操--客户端安装

CDH实操--客户端安装

概述安装CDH客户端,主要是方便在CDH部署节点以外,通过客户端的方式连接CDH上的hdfs,hive和hbase服务1、安装jdk(适配CDH即可,一般1.8)2、获取安装包3、部署安装包把安装包解...

ranger对接hbase

ranger对接hbase

前提:本文是基于集群中已经部署了ranger组件和hbase组件的情况下,增加ranger对hbase组件的对接。安装部署1、ranger-hbase插件安装使用ranger2.3版本对接插件。将插件...

CPU--上下文切换

CPU--上下文切换

一、概述1、Linux 是一个多任务操作系统,它支持远大于 CPU 数量的任务同时运行。当然,这些任务实际上并不是真的在同时运行,而是因为系统在很短的时间内,将 ...

chengying-6.0登入接口逆向

chengying-6.0登入接口逆向

版本更新首先是登入的加密url:http://172.16.121.70/login参数1. username:admin@dtstack.com2. password:614bb9438210c69...

磁盘分盘脚本分享

磁盘分区脚本名称:mg_fdisk.sh#!/bin/bashif [ "$#" -ne 1 ]; then  echo "请传入磁盘参数"  exit 1fidisk=$1# 检查磁盘是否存在if...

大数据集群监控配置操作指导(一)prometheus+grafana部署

大数据集群监控配置操作指导(一)prometheus+grafana部署

1.prometheus+grafana部署(单独部署到一台服务器。4c8g。系统盘300G。操作系统建议7.6到7.9)1.1下载prometheus和grafana的二进制包mkdir /opt/...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。