HDFS迁移参数说明
HDFS迁移命令如下:
hadoop distcp -Ddfs.namenode.kerberos.principal.pattern=* -Dmapreduce.job.hdfs-servers.token-renewal.exclude=源集群主nnip,目标集群主nnip -Dmapreduce.task.timeout=1800000 -Dmapreduce.map.memory.mb=4096 -Dmapreduce.job.user.classpath.first=true -libjars */hadoop-distcp*.jar -m 20 -bandwidth 30 -strategy dynamic -prbugpcaxtq -numListstatusThreads 40 -update -append -delete hdfs://源集群主nnIP:端口/路径 hdfs://目标集群主nn节点IP:8020/路径
命令中涉及参数说明:
dfs.namenode.kerberos.principal.pattern 允许通过身份验证的相关用户,推荐配置*
mapreduce.job.hdfs-servers.token-renewal.exclude token刷新说包含的集群
mapreduce.task.timeout 迁移mr任务超时时间
mapreduce.map.memory.mb 迁移mr任务单个task的gc大小
mapreduce.job.user.classpath.first 针对迁移mr任务优先使用的jar路径
-libjars */hadoop-distcp*.jar 引用的jar包路径
-m 迁移map数
-bandwidth 迁移单个map的带宽
-strategy 迁移模式
-numListstatusThreads 迁移线程数
-update 是否包含更新
-append 是否包含追加
-delete 是否包含删除
-p[rbugpcaxt]
r: replication number
b: block size u: user
g: group
p: permission
c: checksum-type
a: ACL
x: XAttr
t: timestamp