什么 Unix 命令可以获取文本文件并删除空格和标点符号,只留下单词,每行一个单词?
答案1
这已经回答了在 stackoverflow 上可以找到执行此操作的 shell 命令。
或者你也可以也可以使用 vim 来执行此操作,如 stackoverflow 上的这篇文章中所述。
关于如何使用 shell,rampion 给出的最佳答案是:
您可以使用grep
:
-E '\w+'
搜索单词-o
只打印匹配的行部分
% 猫体温 有些例子使用“敏捷的棕色狐狸跳过了懒狗”, 而不是“Lorem ipsum dolor sit amet, consectetur adipiscing elit” 例如文本。 # 如果你不关心单词是否重复 %grep -o -E'\w+'临时文件 一些 例子 使用 这 快的 棕色的 狐狸 跳了 超过 这 懒惰的 狗 相当 比 洛雷姆 原话 悲痛 坐 阿梅特 连接体 脂肪酶 精英 为了 例子 文本
如果你只想打印每个单词一次,不考虑大小写,你可以使用sort
-u
每个单词仅打印一次-f
告诉sort
比较单词时忽略大小写
# 如果你只想让每个单词出现一次 %grep -o -E'\w+'temp|sort -u -f 脂肪酶 阿梅特 棕色的 连接体 狗 悲痛 精英 例子 例子 为了 狐狸 原话 跳了 懒惰的 洛雷姆 超过 快的 相当 坐 一些 文本 比 这 使用