如何计算列中的n个值和总体平均值？

Question 1

一步解决您的实际问题：

$ grep -o '201[1-4].[0-9]\+' file1.txt file2.txt file3.txt \
| datamash --sort -t: -g1 count 2 mean 2 

file1.txt:8:2012.8125
file2.txt:6:2013.08
file3.txt:7:2013.6371428571

grep从文件中获取值，
datamash按文件对项目进行计数并计算平均值。

现在每个文件只有一行：filename:n:average

更容易，对吧？

要获得所有文件的平均值，请删除分组：

grep -o '201[1-4].[0-9]\+' file1.txt file2.txt file3.txt \
| datamash --sort -t: mean 2

2013.1638095238

如果您需要打印精美的表格输出，请尝试以下操作：

$ cat mktable.sh
#!/bin/bash
myfiles="$@"

trap "rm ${myfiles//txt/txt.tempfile}" EXIT SIGTERM SIGINT

declare -A count

for f in $myfiles ; do
  # write the tempfile AND get the linecount simultaneously
    count[$f]="$(grep -o '201[1-4].[0-9]\+' "$f" | tee ${f}.tempfile | wc -l)"
  sed -i "1i $f" ${f}.tempfile        # write header
  sed -i "2i ---------" ${f}.tempfile # write header
done

( paste ${myfiles//txt/txt.tempfile} ;
 for item in $myfiles ; do echo -n '--------- '; done; echo
 for item in $myfiles ; do echo -n "n=${count[$item]} " ; done ; echo ;
 for item in $myfiles ; do echo -n '--------- '; done; echo
 )\
  | column -nt

echo "Average: $(grep -o '201[1-4].[0-9]\+' $myfiles | datamash -s -t: mean 2)"

$ ./mktable.sh file*.txt
file1.txt  file2.txt  file3.txt
---------  ---------  ---------
2012.69    2013.17    2013.54
2013.44    2012.6     2013.9
2012.64    2013.12    2013.66
2013.11    2012.76    2013.44
2012.6     2013.75    2013.89
2012.41    2013.08    2013.62
2012.41               2013.41
2013.2                
---------  ---------  ---------  
n=8        n=6        n=7        
---------  ---------  ---------  
Average: 2013.1638095238

Answer

一步解决您的实际问题：

$ grep -o '201[1-4].[0-9]\+' file1.txt file2.txt file3.txt \
| datamash --sort -t: -g1 count 2 mean 2 

file1.txt:8:2012.8125
file2.txt:6:2013.08
file3.txt:7:2013.6371428571

grep从文件中获取值，
datamash按文件对项目进行计数并计算平均值。

现在每个文件只有一行：filename:n:average

更容易，对吧？

要获得所有文件的平均值，请删除分组：

grep -o '201[1-4].[0-9]\+' file1.txt file2.txt file3.txt \
| datamash --sort -t: mean 2

2013.1638095238

如果您需要打印精美的表格输出，请尝试以下操作：

$ cat mktable.sh
#!/bin/bash
myfiles="$@"

trap "rm ${myfiles//txt/txt.tempfile}" EXIT SIGTERM SIGINT

declare -A count

for f in $myfiles ; do
  # write the tempfile AND get the linecount simultaneously
    count[$f]="$(grep -o '201[1-4].[0-9]\+' "$f" | tee ${f}.tempfile | wc -l)"
  sed -i "1i $f" ${f}.tempfile        # write header
  sed -i "2i ---------" ${f}.tempfile # write header
done

( paste ${myfiles//txt/txt.tempfile} ;
 for item in $myfiles ; do echo -n '--------- '; done; echo
 for item in $myfiles ; do echo -n "n=${count[$item]} " ; done ; echo ;
 for item in $myfiles ; do echo -n '--------- '; done; echo
 )\
  | column -nt

echo "Average: $(grep -o '201[1-4].[0-9]\+' $myfiles | datamash -s -t: mean 2)"

$ ./mktable.sh file*.txt
file1.txt  file2.txt  file3.txt
---------  ---------  ---------
2012.69    2013.17    2013.54
2013.44    2012.6     2013.9
2012.64    2013.12    2013.66
2013.11    2012.76    2013.44
2012.6     2013.75    2013.89
2012.41    2013.08    2013.62
2012.41               2013.41
2013.2                
---------  ---------  ---------  
n=8        n=6        n=7        
---------  ---------  ---------  
Average: 2013.1638095238

Question 2

我将使用 AWK 处理整个事情：

#!/usr/bin/gawk -f

BEGIN {
    RS = " +|\t+|\n"
    OFS = "\t"
}

$1 >= 2011 && $1 < 2015 {
    counts[FILENAME]++
    allcounts++
    allsum += $1
    values[FILENAME][length(values[FILENAME])] = $1
}

END {
    for (file in counts) {
        printf "%s%s", file, OFS
        if (counts[file] > maxlength) {
            maxlength = counts[file]
        }
    }
    printf "\n"
    for (i = 0; i < maxlength; i++) {
        for (file in counts) {
            if (i < counts[file]) {
                printf "%.2f", values[file][i]
            }
            printf "%s", OFS
        }
        printf "\n"
    }
    printf "\n"
    for (file in counts) {
        printf "n=%d%s", counts[file], OFS
    }
    printf "\n"
    printf "Average: %f\n", allsum / allcounts
}

将其保存到文件（例如546830），使其可执行（chmod 755 546830），然后按如下方式运行：

./546830 file1.txt file2.txt file3.txt

您可以使用以下命令将列对齐column：

./546830 file1.txt file2.txt file3.txt | column -t

使用你的问题中给出的例子，我得到

file1.txt  file3.txt    file2.txt
2012.69    2013.54      2013.17
2013.44    2013.90      2012.60
2012.64    2013.66      2013.12
2013.11    2013.44      2012.76
2012.60    2013.89      2013.75
2012.41    2013.62      2013.08
2012.41    2013.41      
2013.20                 
n=8        n=7          n=6
Average:   2013.163810

输出中文件的顺序不一定与输入中的顺序匹配，但值不会混淆。如果顺序很重要，我可以更改脚本以保留它。

其工作方式是将每个文件分成空格和换行符上的记录，然后将符合条件（包括 2011 年至 2015 年除外）的每个记录存储在数组中values，并按文件名和计数进行索引。这些值也会添加到allsum累加器中，每个文件的计数保存在数组中counts，聚合计数保存在allcounts累加器中。

Answer