我的 S3 存储桶中有 JSON 文件,这些文件可能会不时更改其架构。为了能够分析数据,我想定期对它们运行胶水爬虫,Athena 中的分析通常有效。
问题:我的时间戳字符串未被识别为时间戳
时间戳目前具有以下格式2020-04-06T10:37:38+00:00
,但我也尝试过其他格式,例如2020-04-06 10:37:38
- 我可以控制它并可以调整格式。
设置 serde 参数的建议可能不适用于我的应用程序,我希望完全识别该方案,而不必单独定义每个字段。 (AWS Glue: Crawler does not recognize Timestamp columns in CSV format) 通常不需要表中的手动调整,我想在 CloudFormation 堆栈中自动部署 Glue。
你知道我还可以尝试什么吗?
最佳答案
这是一个非常常见的问题。在读取 text/json 文件时,我们解决这个问题的方法是在转换和设置正确的数据类型之间有一个额外的步骤。爬虫数据类型有时有点不确定,并且基于当时可用的数据样本
https://stackoverflow.com/questions/61077152/
相关文章:
node.js - 如何在 Kotlin-React-App 中导入 Bootstrap 库
javascript - 如何在谷歌地图中心制作固定标记以使用react?
flutter - 实现 youtube 播放器时 Flutter App 出错
python-3.x - 如何在 python 中将 dict 列表转换为 json?
android - 如何在 Kotlin Android 中为数据类创建空构造函数
python - 在 Windows 10 上安装 weasyprint 的问题
java - Spring Data MongoDB 中的 INNER JOIN 集合