hadoop - 在Hadoop分布式文件系统(HDFS)中重新分区

有没有一种方法可以直接在HDFS中重新分区数据?如果您注意到您的分区不平衡(一个或多个分区比其他分区大得多),您将如何处理?

我知道可以在Apache Spark中完成该操作,但是运行一个工作来进行重新分区似乎有些开销-也许这是个好主意?

最佳答案

运行hdfs balancer。该工具可在各个数据节点之间平均分配HDFS块。

https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#balancer

如果您正在运行Cloudera Manager或Ambari托管的发行版,则可以从其Web UI运行HDFS平衡器。

https://stackoverflow.com/questions/56139188/

相关文章:

docker - Docker撰写:可以对依赖服务的延迟启动进行建模吗?

docker - 尝试推送到注册表时的HTTP响应403

hadoop - 实现Hivemall回归功能的问题

apache-spark - 如何使用作业 Spark 测量HDFS的读写时间?

hadoop - 如何修复用于计算一列并按另一列分组的配置单元代码?

apache-spark - 找不到pyspark.zip,应用程序application_1558

hadoop - 检索使用hadoop distcp复制的数据的大小

amazon-web-services - Amazon EB中的Dockerfile

dictionary - 没有为方案WASB获取文件系统。 Hdinsight Mapreduce

docker - 在受限制的互联网环境中使用docker