从文档创建单词列表

Question

如果将“单词”定义为一系列“单词组成字符”（通常定义为字母、数字和/或下划线）然后您可以使用 GNU 执行您想要的操作awk：sort

awk -v RS='\\W+' 'ARGIND==1{arr[$0]; next} !($0 in arr)' skip file | sort -u

skip您不想打印的单词文件在哪里，其中file包含您的书。

\W只是的简写[^[:alnum:]_]。但是，如果您对“单词”的定义不包括数字，则更改为RS='\\W+'，RS='[^[:alpha:]_]+'或者如果它包含撇号和连字符，则将其更改为RS="[^[:alpha:]_'-]+"，或更改RS为与您认为组成的字符集的定义的否定相匹配的任何其他内容字”。

要学习 awk，请阅读 Arnold Robbins 所著的《Effective AWK 编程》，第 5 版。

Answer 1

如果将“单词”定义为一系列“单词组成字符”（通常定义为字母、数字和/或下划线）然后您可以使用 GNU 执行您想要的操作awk：sort

awk -v RS='\\W+' 'ARGIND==1{arr[$0]; next} !($0 in arr)' skip file | sort -u

skip您不想打印的单词文件在哪里，其中file包含您的书。

\W只是的简写[^[:alnum:]_]。但是，如果您对“单词”的定义不包括数字，则更改为RS='\\W+'，RS='[^[:alpha:]_]+'或者如果它包含撇号和连字符，则将其更改为RS="[^[:alpha:]_'-]+"，或更改RS为与您认为组成的字符集的定义的否定相匹配的任何其他内容字”。

要学习 awk，请阅读 Arnold Robbins 所著的《Effective AWK 编程》，第 5 版。

从文档创建单词列表

答案1

相关内容