如何使用 1 个命令获取唯一名称的列表以及包含该名称的每行的数字总和?

如何使用 1 个命令获取唯一名称的列表以及包含该名称的每行的数字总和?

问题

我有一个以下格式的日志文件:

2018/12/05 22:43:14 [ChestShop] User bought 1 Boat for 8.00 from Admin Shop at [...] -246, 65, 61
2019/01/02 10:09:38 [ChestShop] User sold 64 Sea Lantern for 27840.00 to Admin Shop at [...] -234, 61, 45
2019/01/02 10:09:38 [ChestShop] User sold 48 Sea Lantern for 20880.00 to Admin Shop at [...] -234, 61, 45
2019/01/02 10:09:42 [ChestShop] User sold 2 Prismarine Bricks for 248.00 to Admin Shop at [...] -233, 62, 45

我想从中提取某些信息并将它们显示在汇总列表中。

我想要总结的信息是名称、数量和销售价值。销售价值是所列数量的总销售价值。名称(海灯、海晶石砖等)可以在此日志文件中出现多次,同时还有数量(名称左侧的数字)和销售价值(名称右侧的数字)“为了”。名称可以包含多个空格(最多 4 个),或者完全不包含空格。

... ... [...] ... ... 2 Prismarine Bricks ... 248.00 ... ... ... ... [...] ..., ..., ...

最好的情况下,我希望摘要看起来像这样:

totalQuantity1 uniqueName1 totalSellValue1
totalQuantity2 uniqueName2 totalSellValue2

按 totalQuantity 或 totalSellValue 排序,取决于命令的细微变化。

我尝试解决这个问题

我发现我可以使用以下命令来获取日志文件中出现的次数最多的项目列表及其出现的次数,并按出现的次数排序(这不是我想要的):

cat ChestShop.log | grep -w sold | cut -d ' ' -f 7,8,9,10,11 | awk -F 'for' '{print $1}' | sort | uniq -c | sort -rn

grep -w sold命令仅用于区分买入和卖出,从上面的日志示例中可以看出,比较买入和卖出时只有两个词不同。

我还使用此命令从仅包含该项目数量的列表中汇总某一特定项目的数量:

cat ChestShop.log | grep -w sold | grep -w 'Magma Block' | cut -d ' ' -f 6 | paste -s -d+ - | bc

我尝试了无数次对上述命令的修改,但都没有得到我想要的结果,上述命令是我得到的最接近的结果。最好命令也尽可能短,或者如果这很难,对命令的每个部分进行解释,以便我能够理解发生了什么(特别是如果 awk 的使用方式与我使用的方式不同),谢谢。

很感谢任何形式的帮助。

答案1

使用普通的 Awk,你可以做这样的事情:

$ awk '$5 == "sold" {
    q[$7 FS $8] += $6; v[$7 FS $8] += $6 * $10
  } 
  END {
    for (item in q) print q[item], item, v[item]
  }' ChestShop.log 
2 Prismarine Bricks 496
112 Sea Lantern 2784000

使用 GNU Awk ( gawk) 版本 4.0+,您可以按如下方式控制排序顺序:

gawk '$5 == "sold" {
    q[$7 FS $8] += $6; v[$7 FS $8] += $6 * $10
  } 
  END {
    PROCINFO["sorted_in"] = "@val_num_desc";
    for (item in q) print q[item], item, v[item]
  }' ChestShop.log 

(按数量降序排列)或

gawk '$5 == "sold" {
    q[$7 FS $8] += $6; v[$7 FS $8] += $6 * $10
  } 
  END {
    PROCINFO["sorted_in"] = "@val_num_asc";
    for (item in v) print q[item], item, v[item]
  }' ChestShop.log 

(按价值升序排列)。请注意,所有这些都假定文件的格式与最初显示的格式相同,每个项目的名称由第 7 和第 8 个空格分隔的字段组成。如果不是,那么您可能需要使用正则表达式对其进行解析并捕获元素 - 例如,使用 GNU Awk:

gawk 'match($0, /sold ([0-9]+) (.*) for ([0-9.]+)/, m) {
    q[m[2]] += m[1]; v[m[2]] += m[3]
  } 
  END {
    PROCINFO["sorted_in"] = "@val_num_asc";
    for (item in v) print q[item], item, v[item]
  }' ChestShop.log

请注意,这假设关键字for不能出现在行中的其他地方。

如果您无法访问 GNU Awk,那么使用另一个正则表达式工具预处理文件以插入适当的分隔符可能会更简单,这样您就可以使用带有该分隔符的 POSIX awk。

相关内容