hdfs数据迁移

恩慈2年前技术文章713

通过使用distcp进行数据全量迁移

DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。

标识描述备注
-p[rbugp]Preserve
  r: replication number
  b: block size
  u: user
  g: group
  p: permission
修改次数不会被保留。并且当指定 -update 时,更新的状态会 被同步,除非文件大小不同(比如文件被重新创建)。
-i忽略失败就像在 附录中提到的,这个选项会比默认情况提供关于拷贝的更精确的统计, 同时它还将保留失败拷贝操作的日志,这些日志信息可以用于调试。最后,如果一个map失败了,但并没完成所有分块任务的尝试,这不会导致整个作业的失败。
-log <logdir>记录日志到 <logdir>DistCp为每个文件的每次尝试拷贝操作都记录日志,并把日志作为map的输出。 如果一个map失败了,当重新执行时这个日志不会被保留。
-m <num_maps>同时拷贝的最大数目指定了拷贝数据时map的数目。请注意并不是map数越多吞吐量越大。
-overwrite覆盖目标如果一个map失败并且没有使用-i选项,不仅仅那些拷贝失败的文件,这个分块任务中的所有文件都会被重新拷贝。 就像下面提到的,它会改变生成目标路径的语义,所以 用户要小心使用这个选项。
-update如果源和目标的大小不一样则进行覆盖像之前提到的,这不是"同步"操作。 执行覆盖的唯一标准是源文件和目标文件大小是否相同;如果不同,则源文件替换目标文件。 像 下面提到的,它也改变生成目标路径的语义, 用户使用要小心。
-f <urilist_uri>使用<urilist_uri> 作为源文件列表这等价于把所有文件名列在命令行中。 urilist_uri 列表应该是完整合法的URI。


    1.在源集群节点执行命令查看迁移文件

hdfs dfs  -ls /dtInsight/hive/warehouse/zmi_data_par.db

    结果如下共迁移2T数据,7128780文件

        image.png


    2.确定迁移参数

根据统计的文件数文件大小和已知带宽及原集群负载情况可以确定map数为60带宽为400因此确定迁移命令为

nohup hadoop distcp -pb -i -m 60 -bandwidth 400  hdfs://192.168.187.5:9000/dtInsight/hive/warehouse/zmi_data_prd.db/ hdfs://10.128.134.65:9000/dtInsight/hive/warehouse/zmi_data_prd.db/  > /home/admin/distcp_zmi_data_prd.db_0804.log &


3.在目标集群执行命令等待任务结束

image.png


        4.mysql元数据迁移

        执行mysqldump命令对原集群数据库进行备份

        /opt/dtstack/DTBase/mysql/bin/mysqldump -uroot metastore -S /data/my3306/run/mysql.sock > /mnt/hive_metastore_oldcluster_$(date +%F).sql


执行mysqldump命令对目标集群数据库进行备份

/opt/dtstack/DTBase/mysql/bin/mysqldump -uroot metastore -S /data/my3306/run/mysql.sock > /mnt/hive_metastore_newcluster_$(date +%F).sql


步骤一 执行mysqldump将原集群的dump文件恢复到目标集群中

/opt/dtstack/DTBase/mysql/bin/mysql -uroot metastore -S /data/my3306/run/mysql.sock <                                                 hive_metastore_oldcluster_2023-08-01.sql


5.校验数据

使用hdfs count对比目录文件大小和数量,使用hdfs ls -R 将原集群和目标集群相关文件导出,然后使用diff对比




相关文章

MySQL性能优化(四)隐式类型转换

我们知道, where条件中,对一个索引字段进行运算会导致无法使用该字段的索引。有些情况下,即使没有显式地对索引字段进行运算,但是数据库会进行隐式类型转换,这也会导致无法使用索引。会发生隐式类型转换的...

PG的多版本并发控制(三)

三、多版本并发控制3.1 常见多版本并发的实现方式第一种方式是,数据库仅保存最新版本数据,将发生变更的旧行版本数据写到其他地方如undo,当需要读取旧版本数据时,通过undo重构。oracle和MyS...

Hbase热点现象

热点现象:HBase热点现象是指在分布式存储系统HBase中,由于数据访问不均衡而导致部分Region Server负载过重的情况。这种不均衡通常是由于某些特定的数据行或列族频繁地被访问,从而导致某个...

Nacos服务公网环境登陆报密码错误问题排查

Nacos服务公网环境登陆报密码错误问题排查

问题现象nacos服务内网可以正常登录,如下:走公网代理出来之后,无法正常登录,报错"用户名密码错误"排查步骤链路分析首先确认公网代理的链路:域名—>haproxy—>nginx—>...

开源大数据集群部署(二)集群基础环境实施准备

开源大数据集群部署(二)集群基础环境实施准备

1、部署实施Ø  部署实施章节中灰色文本内容为操作命令和配置文件内容。Ø  下文中$表示系统命令解释器开始符号,且表示所有机器都要执行,如出现[hadoop@hd1.dtstack...

Hive优化之SQL的优化(三)

Hive优化之SQL的优化(三)

     Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hi...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。