amazon-web-services - 需要有关数据管道创建的设计输入

对于所有AWS专家来说,我需要您的帮助来设计和架构大数据数据管道。以下是这种情况:-

我在S3中有大的.gz扩展文件,范围从MB到GB。这些是w3c格式的日志文件压缩格式。现在,我希望将这些文件提取到BigData管道中,从文件中解压缩数据,然后将数据转换为所需的数据列。

各位aws专家能否使用现成的工具或开源工具或任何海关工具为我提供一些设计解决方案,以实现上述数据管道。

最佳答案

根据Spark文档

All of Spark’s file-based input methods, including textFile, support running on directories, compressed files, and wildcards as well. For example, you can use textFile("/my/directory"), textFile("/my/directory/.txt"), and textFile("/my/directory/.gz").



您所需要做的就是将它们读到RDD(无需单独进行解压缩),并且可以进行任何所需的转换。
logsRDD = sc.textFile("s3a://<directory>/*gz")

引用:
https://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html
http://spark.apache.org/docs/latest/rdd-programming-guide.html

https://stackoverflow.com/questions/55160743/

相关文章:

django - 如果我将我的Elastic Beanstalk应用程序移动为使用Docker,是否

hadoop - 为什么 hive 中的CTAS查询没有得到预期的结果?

ubuntu - docker登录错误: no such host

dns - 在链接的Docker容器中解析内部DNS

docker - docker 容器可以连接到 SRIOV 虚拟功能吗?

hadoop - Hadoop 2.7.7,无法使用端口8088打开Resource Manager

hadoop - reducer 的默认数量

hadoop - 在实际运行oozie工作流之前如何检测错误?

sql - 配置单元确定日期重叠的记录

python - Fedora 22 : ERROR: No module named '_rpmb