计算 awk（或 perl）中唯一关联值的数量

Question 1

和awk：

awk 'function p(){print l,c,d; delete a; delete b; c=d=0} 
  NR!=1&&l!=$1{p()} ++a[$2]==1{c++} ++b[$3]==1{d++} {l=$1} END{p()}' file

解释：

function p()：定义一个名为的函数p()，该函数打印值并删除使用的变量和数组。
NR!=1&&l!=$1如果它不是第一行并且变量 l 等于第一个字段$1，则运行该p()函数。
++a[$2]==1{c++}a如果索引数组的元素值的增量$2等于1，则首先看到该值，因此递增c变量。元素之前++返回新值，因此在与进行比较之前会导致增量1。
++b[$3]==1{d++}与上面相同，但有第三个字段和d变量。
{l=$1}到l第一个字段（用于下一次迭代..上面）
END{p()}处理最后一行后，awk必须打印最后一个块的值

根据您给定的输入，输出为：

apple 3 2
banana 4 5
cucumber 2 3

Answer

和awk：

awk 'function p(){print l,c,d; delete a; delete b; c=d=0} 
  NR!=1&&l!=$1{p()} ++a[$2]==1{c++} ++b[$3]==1{d++} {l=$1} END{p()}' file

解释：

function p()：定义一个名为的函数p()，该函数打印值并删除使用的变量和数组。
NR!=1&&l!=$1如果它不是第一行并且变量 l 等于第一个字段$1，则运行该p()函数。
++a[$2]==1{c++}a如果索引数组的元素值的增量$2等于1，则首先看到该值，因此递增c变量。元素之前++返回新值，因此在与进行比较之前会导致增量1。
++b[$3]==1{d++}与上面相同，但有第三个字段和d变量。
{l=$1}到l第一个字段（用于下一次迭代..上面）
END{p()}处理最后一行后，awk必须打印最后一个块的值

根据您给定的输入，输出为：

apple 3 2
banana 4 5
cucumber 2 3

Question 2

我喜欢空格和描述性变量名称。还有什么可说的呢？好久没写这么多了awk，我什至都忘记了-fshebang的事情。然而，当我这样做时，我真的感觉自己处于禅宗之中。 俳句代码。

我喜欢这个解决方案，因为编码逻辑最少。只有两个 for 循环迭代数组索引。没有 3 部分步进for循环，没有if语句，没有显式的值比较。所有这些事情在统计上都与软件缺陷（错误）相关。有趣的是，没有明确的赋值，只有一种数学运算，即计数增量。我认为这都表明了语言功能的最大程度的利用。

我感觉好像缺少了一些东西，但我还没有找到其中的漏洞。

请给出意见。要求提出意见和建设性批评。我想听听这个脚本的性能考虑因素。

#!/usr/bin/awk -f

function count(seen, unique_count) {
    for (ij in seen) {
        split(ij, fields, SUBSEP)
        ++unique_count[fields[1]]
    }
}

{
    seen2[$1,$2]
    seen3[$1,$3]
}

END {
    count(seen2, count2)
    count(seen3, count3)
    for (i in count3) {
        print i, count2[i], count3[i]
    }
}

注解

我想这个脚本的一个独特功能是seen2和seen3数组不包含数据，只包含索引。这是因为我们只计算唯一值，因此，唯一重要的是这些值已经被看到，我们不关心它们出现了多少次。

#!/usr/bin/awk -f

该count函数采用一个数组，seen由输入记录中遇到的 2 个字段值（字段 1 和 2，或字段 1 和 3）索引，并返回一个内部调用的unique_count由第一个字段索引的数组，其中包含该记录的唯一字段值的计数。第二个索引累积的列：

function count(seen, unique_count) {

该count函数迭代数组的索引seen：

    for (ij in seen) {

将索引拆分为两个原始值：字段 1 以及字段 2 或字段 3：

        split(ij, fields, SUBSEP)

增加字段 1 索引的元素的计数：

        ++unique_count[fields[1]]
    }
}

在遇到的每个输入行上，我们创建一个空数组元素（如果尚不存在），并按第一个字段以及第二个或第三个字段进行索引。为每个要计数的字段编号保留一个单独的数组 (seen2和)。seen3给定列（2 或 3）中的每个唯一值只有一个数组元素：

{
    seen2[$1,$2]
    seen3[$1,$3]
}

在数据末尾，计算每列中看到的唯一字段的数量：

END {

将从输入累积的数组传递给count函数，并接收count2或count3填充唯一字段计数。

    count(seen2, count2)
    count(seen3, count3)

逐步遍历count2或count3数组（哪个并不重要，因为它们都具有每行的第一个字段），并打印字段一，然后是为包含字段一的每行找到的唯一值的计数：

    for (i in count3) {
        print i, count2[i], count3[i]
    }
}

单行版本

awk 'function c(s,u){for(x in s){split(x,f,SUBSEP); ++u[f[1]];}}
 {a[$1,$2]; b[$1,$3];} END {c(a,d); c(b,e); for(i in d){print i,d[i],e[i];}}'

Answer