如果Luigi图中的任务之一需要在远程Hadoop集群上运行,那可能吗? Luigi运行所在的计算机与Hadoop群集不同。 luigi仍然可以检查远程群集中的HDFS文件是否存在吗?
我试图为此找到文档,但无法。
最佳答案
您可以运行可启动任何脚本的作业。
HDFS目标文档在这里:
https://luigi.readthedocs.io/en/stable/api/luigi.contrib.hdfs.html
https://luigi.readthedocs.io/en/stable/api/luigi.contrib.hdfs.target.html
https://stackoverflow.com/questions/55123662/
相关文章:
amazon-web-services - 需要有关数据管道创建的设计输入
nginx - 多个网站在Docker容器中运行,如何实现?
hadoop - Spring Cloud Dataflow-http |卡夫卡和卡夫卡| hdfs
hadoop - HDFS的默认 block 大小为128 MB,而Hive的默认 strip 大小
apache-spark - Spark的示例在客户端模式下引发FileNotFoundExcept
ubuntu - docker登录错误: no such host
python - Fedora 22 : ERROR: No module named '_rpmb