我想在 Spark 集群上运行一个 Python 应用程序,通过 spark-submit
将它发送到那里。该应用程序有多个依赖项,例如 pandas
、numpy
、scikit-learn
。什么是确保在提交作业之前安装依赖项的干净方法?
由于我已经使用 virtualenv 进行开发,因此可以轻松生成 requirements.txt
。
最佳答案
您必须在集群模式下运行作业。假设您使用 Yarn 作为调度程序。
spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip
也试试下面的方法
from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV
关于 Pandas ,如果你有确切的数据结构,你可以调用 toPandas()
numpy 通常集成到许多 pyspark 调用中,但不确定这一点。
https://stackoverflow.com/questions/49908264/
相关文章:
php - NelmioApiDocBundle 不生成文档
angular - 新的 Angular HTTPClient 从 Dreamfactory API
protocol-buffers - 运行 protoc 时是否可以指定输出版本?
azure - 在不属于 Active Directory 的 Azure VM 上创建新用户
google-chrome - Chrome 不尊重主机文件条目
angular - Material 自动完成 : Link multiple text input
angular - 以 Angular 注入(inject)具有基类类型的父组件