如何计算多个浮点列总和

Question 1

首先不要在 shell 中执行此操作，而是在awk. shell 不知道如何进行浮点运算。

您的脚本似乎正在获取一组与要解析的文件名和要考虑的字段名称相对应的参数。

awk与为每列调用两次相比，您可以更有效地执行此操作。

BEGIN { OFS = FS = "|" }

FNR == 1 {
        # Handle the header row. Assuming "cols" is a FS-separated
        # string of column names that we want to sum, pick out the
        # column numbers that we want to process and put them in the
        # array "col". This also converts the "cols" string into a
        # corresponding "header" array.

        nf = split(cols, header)
        for (i = 1; i <= NF; ++i)
                for (j = 1; j <= nf; ++j)
                        if ($i == header[j])
                                col[j] = i
        next
}

{
        # Sum each column that we have enumerated in the "col" array.

        for (i = 1; i <= nf; ++i)
                sum[i] += $(col[i])
}

END {
        # Output a two row table containing only the headers that we
        # have summed over and the accumulated sums.

        $0 = ""

        for (i = 1; i <= nf; ++i)
                $i = header[i]
        print

        for (i = 1; i <= nf; ++i)
                $i = sum[i]
        print
}

使用以下命令在您的第一个文件上运行此命令：

$ awk -v cols="SAL|COST|PER|TAG" -f script.awk file1
SAL|COST|PER|TAG
155|162|95|210

将同一列列出两次会得出两次总和：

$ awk -v cols="SAL|SAL" -f script.awk file1
SAL|SAL
155|155

在第二个文件上：

$ awk -v cols="SAL|COST|PER|TAG" -f script.awk file2
SAL|COST|PER|TAG
55.018|314.686|222.12|359.303

使用后处理column -t：

$ awk -v cols="SAL|COST|PER|TAG" -f script.awk file2 | column -s '|' -t
SAL     COST     PER     TAG
55.018  314.686  222.12  359.303

将其放入一个简单的脚本中：

#!/bin/sh

infile=$1
shift

IFS='|'

awk -v cols="$*" -f script.awk "$infile" |
column -s '|' -t

你可以用它作为

$ ./script.sh file1 PER TAG
PER  TAG
95   210

您还可以使用支持 CSV 的工具（例如 CSVkit 中的工具）来为您完成这项工作。

csvstat能够计算 CSV 文件的一些基本“统计数据”。假设您的文件是格式正确的 CSV 文件（它们不是，因为每个数据行都有一个尾随|分隔符），则每列的总和可以通过

$ csvstat --sum file1
  1. ID: None
  2. NAME: None
  3. SAL: 155
  4. COST: 162
  5. PER: 95
  6. TAG: 210

$ csvstat --sum file2
  1. ID: None
  2. NAME: None
  3. SAL: 55.018
  4. COST: 314.686
  5. PER: 222.12
  6. TAG: 359.30278

或者，仅针对单个列：

$ csvstat --sum -c 'SAL' file2
55.018

Answer