python - 在 spark-submit 之前安装 pyspark 作业的要求

我想在 Spark 集群上运行一个 Python 应用程序，通过 spark-submit 将它发送到那里。该应用程序有多个依赖项，例如 pandas、numpy、scikit-learn。什么是确保在提交作业之前安装依赖项的干净方法？

由于我已经使用 virtualenv 进行开发，因此可以轻松生成 requirements.txt。

最佳答案

您必须在集群模式下运行作业。假设您使用 Yarn 作为调度程序。

spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip

也试试下面的方法

from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV

关于 Pandas ，如果你有确切的数据结构，你可以调用 toPandas()

numpy 通常集成到许多 pyspark 调用中，但不确定这一点。

https://stackoverflow.com/questions/49908264/

相关文章：

php - NelmioApiDocBundle 不生成文档