python - 用dask阅读时如何跳过坏行?

我正在尝试使用 dask 读取 .txt(大约 700 万行)。但是,大约有 4000 行与列的数据类型不匹配:

+-----------------------------+--------+----------+
| Column                      | Found  | Expected |
+-----------------------------+--------+----------+
| Pro_3FechaAprobacion        | object | int64    |
| Pro_3FechaCancelContractual | object | int64    |
| Pro_3FechaDesembolso        | object | int64    |
+-----------------------------+--------+----------+

The following columns also raised exceptions on conversion:

- Pro_3FechaAprobacion
  ValueError("invalid literal for int() with base 10: '200904XX'")
- Pro_3FechaCancelContractual
  ValueError("invalid literal for int() with base 10: '        '")
- Pro_3FechaDesembolso
  ValueError("invalid literal for int() with base 10: '200904XX'")

我知道这些是日期列,它们的格式类似于 %Y%m%d,但有些记录类似于 %Y%mXX。我想在使用时跳过这些:

df = pd.read_csv("file.txt",error_bad_lines=False)

有什么办法吗?

最佳答案

error_bad_lines=False 关键字取自 pandas.read_csv。我认为它不支持您想要的行为。您可能会考虑使用 pandas 标签提出同样的问题,看看熟悉 Pandas 的 read_csv 函数的人是否可以提供一些建议。 dask.dataframe.read_csv 函数仅使用该代码。

https://stackoverflow.com/questions/57419979/

相关文章:

python - matplotlib/seaborn : first and last row c

python - 设置 TensorBoard 以在 Google Colab 中为 TensorF

python - 如何从数据集中创建锚定正负对来训练模型?

r - 在 R 中根据调整后的生存曲线绘制累积事件

react-native - 使用 wix react native navigation v3 设

python - 在 Tensorflow 2.0 中卡住和导出 TensorFlow 模型

reactjs - Next.js 状态改变不重新渲染 UI

python - 如何将文件传递给 unittest.mock.mock_open()?

python - 如何在 Python 和 web3.py 中获取 Solidity revert/

msbuild - 旧项目格式忽略 PackageReference 条件