如何在pytorrch中读入.txt文件(语料库)到torchtext?
我只看到 data.Dataset 的示例数据集和 data.TabularData 的 csv、json 和 tsv。
https://github.com/pytorch/text#data
https://torchtext.readthedocs.io/en/latest/data.html#dataset
如果我使用像这样的表格数据集读取它,它仍然有效:
test_file = data.TabularDataset(path=input_filepath, format='csv', fields=[('text', data.Field())])
但我的数据集不是表格,所以我想看看是否有更好的选择。
最佳答案
我建议编写一个快速脚本来读取您的语料库并将其转储到 JSON(有 plenty of examples out there ),然后将该 JSON 与 torchtext 一起使用。您将希望数据具有某种结构以充分利用 torchtext(想想批处理/可迭代数据集)。
如果您不知道如何遍历数据集,请查看 my other answer here .
https://stackoverflow.com/questions/54340330/
相关文章:
maven - 版本解析异常 : Failed to resolve version RELEASE
python - 如何在 PyCharm 中使用 Anaconda 基础环境
azure - 最大文件上传大小 Azure Web 应用程序防火墙 WAF
java - 如何通过本地主机将 SSL 与 ActiveMQ 一起使用
asp.net - 为什么要用 aspnet_regiis.exe 加密
java - 如何在 Micronaut 中使用@Parameter?
tensorflow - 如何分析在 tf-serving 上运行的 tensorflow 模型?