如何计算文件中文本出现的次数？

Question 1

您可以使用cut和uniq工具：

cut -d ' ' -f1 test.txt  | uniq -c
      5 5.135.134.16
      9 13.57.220.172
      1 13.57.233.99
      2 18.206.226.75
      3 18.213.10.181

解释：

cut -d ' ' -f1：提取第一个字段（IP地址）
uniq -c：报告重复的行并显示出现的次数

Answer

您可以使用cut和uniq工具：

cut -d ' ' -f1 test.txt  | uniq -c
      5 5.135.134.16
      9 13.57.220.172
      1 13.57.233.99
      2 18.206.226.75
      3 18.213.10.181

解释：

cut -d ' ' -f1：提取第一个字段（IP地址）
uniq -c：报告重复的行并显示出现的次数

Question 2

如果你没有特别要求给定的输出格式，那么我建议使用已经发布的cut+uniq根据答案

如果你真的需要给定的输出格式，在 Awk 中执行此操作的单次方式是

awk '{c[$1]++} END{for(i in c) print i, "count: " c[i]}' log

当输入已经排序时，这有点不理想，因为它不必要将所有 IP 存储到内存中 - 在预排序的情况下执行此操作的更好（虽然更复杂uniq -c）的方法是：

awk '
  NR==1 {last=$1} 
  $1 != last {print last, "count: " c[last]; last = $1} 
  {c[$1]++} 
  END {print last, "count: " c[last]}
'

前任。

$ awk 'NR==1 {last=$1} $1 != last {print last, "count: " c[last]; last = $1} {c[$1]++} END{print last, "count: " c[last]}' log
5.135.134.16 count: 5
13.57.220.172 count: 9
13.57.233.99 count: 1
18.206.226.75 count: 2
18.213.10.181 count: 3

Answer

如果你没有特别要求给定的输出格式，那么我建议使用已经发布的cut+uniq根据答案

如果你真的需要给定的输出格式，在 Awk 中执行此操作的单次方式是

awk '{c[$1]++} END{for(i in c) print i, "count: " c[i]}' log

当输入已经排序时，这有点不理想，因为它不必要将所有 IP 存储到内存中 - 在预排序的情况下执行此操作的更好（虽然更复杂uniq -c）的方法是：

awk '
  NR==1 {last=$1} 
  $1 != last {print last, "count: " c[last]; last = $1} 
  {c[$1]++} 
  END {print last, "count: " c[last]}
'

前任。

$ awk 'NR==1 {last=$1} $1 != last {print last, "count: " c[last]; last = $1} {c[$1]++} END{print last, "count: " c[last]}' log
5.135.134.16 count: 5
13.57.220.172 count: 9
13.57.233.99 count: 1
18.206.226.75 count: 2
18.213.10.181 count: 3

Question 3

您可以使用grep和uniq获取地址列表，循环遍历它们并grep再次进行计数：

for i in $(<log grep -o '^[^ ]*' | uniq); do
  printf '%s count %d\n' "$i" $(<log grep -c "$i")
done

grep -o '^[^ ]*'输出从开头 ( ^) 到每行第一个空格的每个字符，uniq删除重复的行，从而为您留下 IP 地址列表。由于命令替换，循环for会循环遍历此列表，打印当前处理的 IP，然后打印“count”和计数。后者由计算得出grep -c，它计算至少有一个匹配项的行数。

示例运行

$ for i in $(<log grep -o '^[^ ]*'|uniq);do printf '%s count %d\n' "$i" $(<log grep -c "$i");done
5.135.134.16 count 5
13.57.220.172 count 9
13.57.233.99 count 1
18.206.226.75 count 2
18.213.10.181 count 3

Answer

您可以使用grep和uniq获取地址列表，循环遍历它们并grep再次进行计数：

for i in $(<log grep -o '^[^ ]*' | uniq); do
  printf '%s count %d\n' "$i" $(<log grep -c "$i")
done

grep -o '^[^ ]*'输出从开头 ( ^) 到每行第一个空格的每个字符，uniq删除重复的行，从而为您留下 IP 地址列表。由于命令替换，循环for会循环遍历此列表，打印当前处理的 IP，然后打印“count”和计数。后者由计算得出grep -c，它计算至少有一个匹配项的行数。

示例运行

$ for i in $(<log grep -o '^[^ ]*'|uniq);do printf '%s count %d\n' "$i" $(<log grep -c "$i");done
5.135.134.16 count 5
13.57.220.172 count 9
13.57.233.99 count 1
18.206.226.75 count 2
18.213.10.181 count 3

Question 4

一些 Perl：

$ perl -lae '$k{$F[0]}++; }{ print "$_ count: $k{$_}" for keys(%k)' log 
13.57.233.99 count: 1
18.206.226.75 count: 2
13.57.220.172 count: 9
5.135.134.16 count: 5
18.213.10.181 count: 3

这与Steeldriver 的 awk 方法，但在 Perl 中。-a导致 perl 自动将每个输入行拆分为数组@F，其第一个元素（IP）为$F[0]。因此，$k{$F[0]}++将创建哈希%k，其键是 IP，其值是每个 IP 被看到的次数。}{是 perlspeak 的时髦说法，表示“在处理完所有输入后，在最后做剩下的事情”。因此，最后，脚本将迭代哈希的键并打印当前键（$_）及其值（$k{$_}）。

并且，为了让人们不认为 perl 强迫您编写看起来像神秘涂鸦的脚本，以下是同样的事情，但形式不太简洁：

perl -e '
  while (my $line=<STDIN>){
    @fields = split(/ /, $line);
    $ip = $fields[0];
    $counts{$ip}++;
  }
  foreach $ip (keys(%counts)){
    print "$ip count: $counts{$ip}\n"
  }' < log

Answer

一些 Perl：

$ perl -lae '$k{$F[0]}++; }{ print "$_ count: $k{$_}" for keys(%k)' log 
13.57.233.99 count: 1
18.206.226.75 count: 2
13.57.220.172 count: 9
5.135.134.16 count: 5
18.213.10.181 count: 3

这与Steeldriver 的 awk 方法，但在 Perl 中。-a导致 perl 自动将每个输入行拆分为数组@F，其第一个元素（IP）为$F[0]。因此，$k{$F[0]}++将创建哈希%k，其键是 IP，其值是每个 IP 被看到的次数。}{是 perlspeak 的时髦说法，表示“在处理完所有输入后，在最后做剩下的事情”。因此，最后，脚本将迭代哈希的键并打印当前键（$_）及其值（$k{$_}）。

并且，为了让人们不认为 perl 强迫您编写看起来像神秘涂鸦的脚本，以下是同样的事情，但形式不太简洁：

perl -e '
  while (my $line=<STDIN>){
    @fields = split(/ /, $line);
    $ip = $fields[0];
    $counts{$ip}++;
  }
  foreach $ip (keys(%counts)){
    print "$ip count: $counts{$ip}\n"
  }' < log

如何计算文件中文本出现的次数？

答案1

答案2

答案3

示例运行

答案4

相关内容