python - 在 spark-submit 之前安装 pyspark 作业的要求

我想在 Spark 集群上运行一个 Python 应用程序,通过 spark-submit 将它发送到那里。该应用程序有多个依赖项,例如 pandasnumpyscikit-learn。什么是确保在提交作业之前安装依赖项的干净方法?

由于我已经使用 virtualenv 进行开发,因此可以轻松生成 requirements.txt

最佳答案

您必须在集群模式下运行作业。假设您使用 Yarn 作为调度程序。

spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip

也试试下面的方法

from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV

关于 Pandas ,如果你有确切的数据结构,你可以调用 toPandas()

numpy 通常集成到许多 pyspark 调用中,但不确定这一点。

https://stackoverflow.com/questions/49908264/

相关文章:

php - NelmioApiDocBundle 不生成文档

angular - 新的 Angular HTTPClient 从 Dreamfactory API

protocol-buffers - 运行 protoc 时是否可以指定输出版本?

azure - 在不属于 Active Directory 的 Azure VM 上创建新用户

google-chrome - Chrome 不尊重主机文件条目

angular - Material 自动完成 : Link multiple text input

angular - 以 Angular 注入(inject)具有基类类型的父组件

azure - Azure 应用服务重新启动时会发生什么?

angular - 如何将 Blob 转换为图像并将其显示 Angular 5

git - 从 GitLab merge 请求中排除特定提交