HDFS迁移参数说明

南墨5个月前技术文章152
  1. HDFS迁移命令如下:

    hadoop distcp -Ddfs.namenode.kerberos.principal.pattern=* -Dmapreduce.job.hdfs-servers.token-renewal.exclude=源集群主nnip,目标集群主nnip -Dmapreduce.task.timeout=1800000 -Dmapreduce.map.memory.mb=4096 -Dmapreduce.job.user.classpath.first=true -libjars */hadoop-distcp*.jar -m 20 -bandwidth 30 -strategy dynamic -prbugpcaxtq -numListstatusThreads 40 -update -append -delete hdfs://源集群主nnIP:端口/路径 hdfs://目标集群主nn节点IP:8020/路径

  2. 命令中涉及参数说明:

    1. dfs.namenode.kerberos.principal.pattern   允许通过身份验证的相关用户,推荐配置*

    2. mapreduce.job.hdfs-servers.token-renewal.exclude token刷新说包含的集群

    3. mapreduce.task.timeout 迁移mr任务超时时间

    4. mapreduce.map.memory.mb 迁移mr任务单个task的gc大小

    5. mapreduce.job.user.classpath.first 针对迁移mr任务优先使用的jar路径

    6. -libjars */hadoop-distcp*.jar 引用的jar包路径

    7. -m 迁移map数

    8. -bandwidth 迁移单个map的带宽

    9. -strategy 迁移模式

    10. -numListstatusThreads 迁移线程数

    11. -update 是否包含更新

    12. -append 是否包含追加

    13. -delete 是否包含删除

    14. -p[rbugpcaxt]

      r: replication number

      b: block size u: user

      g: group

      p: permission

      c: checksum-type

      a: ACL

      x: XAttr

      t: timestamp

相关文章

Linux进程管理详解

Linux进程管理详解

1 进程分类系统进程可以执行内存资源分配和进程切换等管理工作,而且该进程的运行不受用户的干预,即使是root用户也不能干预系统进程的运行。用户进程通过执行用户程序、应用程序或内核之外的系统程序而产生的...

ES字段类型与内存管理

ES字段类型与内存管理

一、ES常见字段类型:1、 概述字段是数据存储的最小微粒,根据数据的性质不同将数据分成不同的字段类型,熟悉不同字段类型的特性,对索引的Mapping设计、查询调优都极其重要。2、 关键参数Index:...

PG的表膨胀

1 什么是表膨胀众所周知,PostgreSQL的多版本并发是通过保留变更前的记录来实现的。当数据记录被DML修改,旧版本记录仍保留不变,仅仅需要修改相关记录的xmin、xmax属性,并新增写入变更后的...

hdfs短路读

hdfs短路读

原理当客户端执行数据块副本短路读时,Client与DataNode的交互过程具体如下图:含义如下:(1)DFSClient通过requestShortCircuitShm()接口向DataNode请求...

PG常用命令

1、连库相关#连库 $ psql -h <hostname or ip> -p <端口> [数据库名称] [用户名称] #连库并执行命令 $ psql -h <ho...

MySQL运维实战之备份和恢复(8.9)xtrabackup备份指定表

备份部分表如果实例设置了参数innodb_file_per_table,xtrabackup可以备份部分表。通过--tables,--tables-file,--databases,--databas...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。