python - 在将字符串转换为列表后,如何从我的 nltk token 中删除 '\n',或阻止

我已将一列从 CSV 格式转换为列表,然后是用于标记化的字符串。在它被转换成一个字符串后,我得到了 '\n' 。我正在寻求完全防止这种情况发生,或者在它发生后将其删除。

到目前为止,我已经尝试过 replace、strip 和 rstrip,但均无济于事。

这是我在将列表转换为字符串后尝试 .replace() 的版本。

df = pd.read_csv('raw_da_qs.csv')
question = df['question_only']
question = question.str.replace(r'\d+','')
question = str(question.tolist())
question = question.replace('\n','')
tokenizer = nltk.tokenize.RegexpTokenizer('\w+')
tokens = tokenizer.tokenize(question)

最后我得到了这样的标记,比如“nthere”和“nsuicide”

最佳答案

我有同样的问题,我唯一的 solution我发现是使用 sed . 我希望有人会分享一个 pythonic 的方式来处理它。

关于python - 在将字符串转换为列表后,如何从我的 nltk token 中删除 '\n',或阻止它首先出现?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56708768/

相关文章:

c# - 观察并删除(截图),如果在Iphone中使用我的App时截图

python - 在 Python3.7 之前的版本中,应该如何在 argparse-module

spring - hibernate 时存储的 LocalDate 错误

dialogflow-es - 如何将 dialogflow 与 instagram 集成

gatsby - gatsby-browser-entry.js 中的 "module parse

typescript - 如何在不提交的情况下进行测试?

php - tempus dominus pre select multidate from val

python - 如何在 Panel Fileinput 小部件中访问选定的文件名?

sql-server - 在 SQL Server 2016 代理作业中找不到自定义 dll

javascript - 使用 Angular 8 将 NPM 包 Stockfish.js(国际象