hadoop纠删码

耀灵2年前 (2023-10-13)技术文章673

纠删码是CDH6/Hadop3引入的新功能，之前的HDFS都是副本方式容错，默认情况下，一个文件有三个副本，可以容忍任意2个副本（Datanode）不可用，是以牺牲空间的代价提供了数据的可用性，带来了2倍的冗余开销。例如1TB的数据，需要3TB的空间来进行存储。而纠删码可以在同等可用性的情况下，节省更多的空间。

以RS-6-3-1024k为例，6份原始数据，编码后生成3份校验数据，一共9份数据，只要最终有6份数据存在，就可以得到原始数据，它可以容忍任意3份数据不可用，而冗余的空间（3）只有原始空间（6）的0.5倍，只有副本方式（6*3-6=12）的1/4，因此，可以节约更多的空间成本。

对于RS-3-2-1024k来说，3份原始数据，编码后生成2分校验数据，一共5份数据，可以容忍任意2份数据不可用，冗余空间（2）只有原始空间67%，只有副本方式的（3*3-3=6）的1/3。可见RS-6-3-1024k比RS-3-2-1024k策略能节约更多空间。

1、CDH6 默认没有开启纠删码，需要在cloudera manager中进行设置，启用后需要重启HDFS服务。

返回列表

上一篇：Flume使用案例之Flume与Flume之间数据传递，多Flume汇总数据到单Flume

下一篇：Linux SSSD同步大量AD用户缓慢

相关文章

Linux高并发Nginx配置优化

在日常的运维工作中，经常会用到nginx服务，也时常会碰到nginx因高并发导致的性能瓶颈问题。一般来说nginx配置文件中对优化比较有作用的主要有以下几项：1）nginx进程数，建议按照cpu数目来...

minio存储桶命名规则

存储桶命名规则创建S3存储桶后，无法更改存储桶名称，因此请明智地选择名称。重要在2018年3月1日，我们更新了美国东部（弗吉尼亚北部）地区S3存储桶的命名约定，以匹配我们在所有其他全球AWS区域中使用...

MySQL运维实战之备份和恢复（8.8）恢复单表

xtrabackup支持单表恢复。如果一个表使用了独立表空间(innodb_file_per_table=1)，就可以单独恢复这个表。1、Prepareprepare时带上参数--export，xtr...

SQLServer执行计划

SQLServer执行计划

一、执行计划概览RDS SQLServer 执行计划可以在性能分析中查看，也可以在登陆数据库后查看执行计划。（1）在 DMS 登陆数据库后查看，情况如下：具体执行计划内容如下：（2）在性能分析中找...

kafka开启kerberos和ACL

kafka开启kerberos和ACL

kafka开启kerberos和ACL一、部署kafka-KB包1．上传软件包依次点击部署中心----部署组件----上传软件包选择需要升级的kafka版本并点击确定 2．部署kafka依次点击部署...

CPU--上下文切换

CPU--上下文切换

一、概述1、Linux 是一个多任务操作系统，它支持远大于 CPU 数量的任务同时运行。当然，这些任务实际上并不是真的在同时运行，而是因为系统在很短的时间内，将 ...

发表评论