计算多个文件的每一行上的字符串列表

Question 1

如果

$ cat strings
journal
moon pig
owls

和

$ cat file
I like to journal about owls and moon pigs.
owls are birds. moon pigs are not.
owls owls owls

然后，你可以像这样使用 GNU awk

gawk '
    NR == FNR { string[++n] = $0; next}
    {
        for (i=1; i<=n; i++)
            # gsub() return the number of replacements.
            # it is a convenient way to count instances of fixed strings.
            count[i][FNR] = gsub(string[i], string[i])
        if (FNR > max)
            max = FNR
    }
    END {
        for (i=1; i<=n; i++) {
            for (j=1; j<=max; j++)
                printf "%s\t", 0 + count[i][j]
            print ""
        }
    }
' strings file

输出

1   0   0
1   1   0
1   1   3

我根本没有解释过那个 awk 程序。看看你是否能弄清楚，并提出你的任何问题。

Answer

如果

$ cat strings
journal
moon pig
owls

和

$ cat file
I like to journal about owls and moon pigs.
owls are birds. moon pigs are not.
owls owls owls

然后，你可以像这样使用 GNU awk

gawk '
    NR == FNR { string[++n] = $0; next}
    {
        for (i=1; i<=n; i++)
            # gsub() return the number of replacements.
            # it is a convenient way to count instances of fixed strings.
            count[i][FNR] = gsub(string[i], string[i])
        if (FNR > max)
            max = FNR
    }
    END {
        for (i=1; i<=n; i++) {
            for (j=1; j<=max; j++)
                printf "%s\t", 0 + count[i][j]
            print ""
        }
    }
' strings file

输出

1   0   0
1   1   0
1   1   3

我根本没有解释过那个 awk 程序。看看你是否能弄清楚，并提出你的任何问题。

Question 2

获取每行计数数组并立即处理每行的核心算法是：

gawk ' NR == FNR { string[++n] = $0; next}
       { for (i=1; i<=n; i++) 
             printf("%s\t", gsub(string[i],""))
         print ""
       }
     ' strings file

这是基于 gsub 来给出执行的替换的计数。

这将生成以下输出：

1   1   0   
0   0   2

这只是您所要求的转置矩阵。在 awk 中转置列和行有点复杂。并且还可以处理多个文件。我们可以使用空行作为文件更改的指示符来连接（管道）两个脚本。处理同一个文件两次：

awk '
    NR == FNR { string[++n] = $0; next}
    FNR==1 && p == 1 { print "" }
    { for (i=1; i<=n; i++) printf("%s\t", gsub(string[i],""))
      print ""
      p = 1
    }
    END    { print "" }
' strings.txt    infile.txt    infile.txt |
awk '!/^$/{ 
       for(i=1;i<=NF;i++) f[NR-r][i]=$i ;
       if (maxf<NF) maxf = NF ;
       if (maxr<(NR-r)) maxr = NR-r ;
     } 
     /^$/{
         for(      i=1 ; i<=maxf ; i++ )
         {
             for(  j=1 ; j<=maxr ; j++ )
                 printf("%s\t",f[j][i])
             print ( "loop", maxf, maxr, r )
         }
     r=NR
     print ( "" )
     maxf=0
     maxr=0
     delete f
     }'

这给出了所问的答案：

Answer