从文本文件中提取单词

从文本文件中提取单词

什么 Unix 命令可以获取文本文件并删除空格和标点符号,只留下单词,每行一个单词?

答案1

这已经回答了在 stackoverflow 上可以找到执行此操作的 shell 命令

或者你也可以也可以使用 vim 来执行此操作,如 stackoverflow 上的这篇文章中所述

关于如何使用 shell,rampion 给出的最佳答案是:


您可以使用grep

  • -E '\w+'搜索单词
  • -o只打印匹配的行部分
% 猫体温
有些例子使用“敏捷的棕色狐狸跳过了懒狗”,
而不是“Lorem ipsum dolor sit amet, consectetur adipiscing elit”
例如文本。
# 如果你不关心单词是否重复
%grep -o -E'\w+'临时文件
一些
例子
使用
快的
棕色的
狐狸
跳了
超过
懒惰的
相当
洛雷姆
原话
悲痛
阿梅特
连接体
脂肪酶
精英
为了
例子
文本

如果你只想打印每个单词一次,不考虑大小写,你可以使用sort

  • -u每个单词仅打印一次
  • -f告诉sort比较单词时忽略大小写
# 如果你只想让每个单词出现一次
%grep -o -E'\w+'temp|sort -u -f
脂肪酶
阿梅特
棕色的
连接体
悲痛
精英
例子
例子
为了
狐狸
原话
跳了
懒惰的
洛雷姆
超过
快的
相当
一些
文本
使用

相关内容