hadoop - 在Hadoop分布式文件系统(HDFS)中重新分区

有没有一种方法可以直接在HDFS中重新分区数据？如果您注意到您的分区不平衡(一个或多个分区比其他分区大得多)，您将如何处理？

我知道可以在Apache Spark中完成该操作，但是运行一个工作来进行重新分区似乎有些开销-也许这是个好主意？

最佳答案

运行hdfs balancer。该工具可在各个数据节点之间平均分配HDFS块。

https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#balancer

如果您正在运行Cloudera Manager或Ambari托管的发行版，则可以从其Web UI运行HDFS平衡器。