跳转到主要内容

Hive数据跨HDFS集群迁移

分类
故障描述

  客户存算分离,将Hive数据从本地HDFS迁移到EMC A300 HDFS存储。

故障分析

  无

处理过程

1、前期预迁移hdfs文件:hadoop distcp -pugpt -update -skipcrccheck  -m 24 /user/hive hdfs://A300.corem.local:8020/user/hive

2、停止hive服务,增量迁移hadoop distcp -pugpt -update -skipcrccheck  -m 24 /user/hive hdfs://A300.corem.local:8020/user/hive

3、Mysql导出元数据表:mysqldump -hlocalhost -uhive -p --databases hive > hive_bk.sql

4、替换hive_bk.sql文件中间的路径关键字:sed -i 's/master-1/A300.corem.local/g' hive_bk.sql

5、在Mysql里成导入hive_bk.sql:

mysql -hlocalhost -uhive –p

mysql> source hive_bk.sql

6、启动hive服务,检查状态,通过show database,select等检查表状态。

 

建议/总结

  1.HDFS文件部分,需多次同步更新,最终停止业务后再同步一次即可。

        2.元数据表里保存了表的保存路径。需替换相应数据。确保更新后路径一致。