使用命令行打印唯一单词的数量

Question 1

<alice tr -cd "[:alpha:][:space:]-'" |
  tr ' [:upper:]' '\n[:lower:]' |
  tr -s '\n' |
  sed "s/^['-]*//;s/['-]$//" |
  sort |
  uniq -c > alice_unique

逐行：

删除除字母、空格、撇号和连字符之外的所有内容
将空格转换为换行符并将大写转换为小写
“挤压”连续换行符
去掉前导或尾随撇号和连字符
对单词进行排序
显示每个唯一单词及其出现次数

如果你应该把数字算作单词，这是错误的。如果文本不是 ASCII，这可能不起作用。为了爱丽丝漫游仙境这可能已经足够好了。

Answer

<alice tr -cd "[:alpha:][:space:]-'" |
  tr ' [:upper:]' '\n[:lower:]' |
  tr -s '\n' |
  sed "s/^['-]*//;s/['-]$//" |
  sort |
  uniq -c > alice_unique

逐行：

删除除字母、空格、撇号和连字符之外的所有内容
将空格转换为换行符并将大写转换为小写
“挤压”连续换行符
去掉前导或尾随撇号和连字符
对单词进行排序
显示每个唯一单词及其出现次数

如果你应该把数字算作单词，这是错误的。如果文本不是 ASCII，这可能不起作用。为了爱丽丝漫游仙境这可能已经足够好了。

Question 2

试试这个，文本文件在哪里：

awk -- '{for (i = 1; i <= NF; i++) wc[$i] += 1}; END {for (w in wc) print w, wc[w]}' <file> | sort

默认情况下，awk 按空格分割每一行输入，生成字段 $1、$2、...，直至 NF，它提供输入字段数量的计数。它还隐式地迭代所有输入行。 END 标记给出了在处理完所有行后要执行的代码块。变量没有声明，方括号用于引用关联数组。

该 awk 程序获取每行的每个单词，使用该单词作为 wc[] 的索引，并添加到计数（如果尚未定义，则将其视为零）。因此，for 循环和所有行上的隐式外部循环都会对所有唯一单词进行计数（标点符号将导致它被计为不同的单词，但如果需要，这很容易修复）。然后 END 块打印出所有单词及其计数。

我使用管道进行排序以按顺序排列单词，而不是使 awk 程序复杂化。我还删除了之前的“-u”，因为每一行都是唯一的。

Answer

试试这个，文本文件在哪里：

awk -- '{for (i = 1; i <= NF; i++) wc[$i] += 1}; END {for (w in wc) print w, wc[w]}' <file> | sort

默认情况下，awk 按空格分割每一行输入，生成字段 $1、$2、...，直至 NF，它提供输入字段数量的计数。它还隐式地迭代所有输入行。 END 标记给出了在处理完所有行后要执行的代码块。变量没有声明，方括号用于引用关联数组。

该 awk 程序获取每行的每个单词，使用该单词作为 wc[] 的索引，并添加到计数（如果尚未定义，则将其视为零）。因此，for 循环和所有行上的隐式外部循环都会对所有唯一单词进行计数（标点符号将导致它被计为不同的单词，但如果需要，这很容易修复）。然后 END 块打印出所有单词及其计数。

我使用管道进行排序以按顺序排列单词，而不是使 awk 程序复杂化。我还删除了之前的“-u”，因为每一行都是唯一的。

Question 3

以下是AWK的解决方案。请注意，这是一个基本解决方案，可能需要扩展。例如，如果我们解析圣经，我们需要从单词中排除经文。

{
    if (NR == 1) { 
        sub(/^\xef\xbb\xbf/,"")
    }

    gsub(/[,;!()*:?.]*/, "")
    
    for (i = 1; i <= NF; i++) {

        w = $i
        words[w]++
    }
} 

END {

    print length(words)
}

该程序会删除 BOM 字符，如果不这样做，就会使一个单词“唯一”。它去掉了一些基本的标点符号。在 for 循环中，我们对所有字段进行计数。

最后，我们得到了数组的长度。

Answer

以下是AWK的解决方案。请注意，这是一个基本解决方案，可能需要扩展。例如，如果我们解析圣经，我们需要从单词中排除经文。

{
    if (NR == 1) { 
        sub(/^\xef\xbb\xbf/,"")
    }

    gsub(/[,;!()*:?.]*/, "")
    
    for (i = 1; i <= NF; i++) {

        w = $i
        words[w]++
    }
} 

END {

    print length(words)
}

该程序会删除 BOM 字符，如果不这样做，就会使一个单词“唯一”。它去掉了一些基本的标点符号。在 for 循环中，我们对所有字段进行计数。

最后，我们得到了数组的长度。

使用命令行打印唯一单词的数量

答案1

答案2

答案3

相关内容