对于所有AWS专家来说,我需要您的帮助来设计和架构大数据数据管道。以下是这种情况:-
我在S3中有大的.gz扩展文件,范围从MB到GB。这些是w3c格式的日志文件压缩格式。现在,我希望将这些文件提取到BigData管道中,从文件中解压缩数据,然后将数据转换为所需的数据列。
各位aws专家能否使用现成的工具或开源工具或任何海关工具为我提供一些设计解决方案,以实现上述数据管道。
最佳答案
根据Spark文档
All of Spark’s file-based input methods, including textFile, support running on directories, compressed files, and wildcards as well. For example, you can use textFile("/my/directory"), textFile("/my/directory/.txt"), and textFile("/my/directory/.gz").
logsRDD = sc.textFile("s3a://<directory>/*gz")
https://stackoverflow.com/questions/55160743/