有没有一种方法可以直接在HDFS中重新分区数据?如果您注意到您的分区不平衡(一个或多个分区比其他分区大得多),您将如何处理?
我知道可以在Apache Spark中完成该操作,但是运行一个工作来进行重新分区似乎有些开销-也许这是个好主意?
最佳答案
运行hdfs balancer
。该工具可在各个数据节点之间平均分配HDFS块。
https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#balancer
如果您正在运行Cloudera Manager或Ambari托管的发行版,则可以从其Web UI运行HDFS平衡器。
https://stackoverflow.com/questions/56139188/