构建表 - 根据文件名添加列

Question 1

最可能的答案是您的数据文件列不是用制表符分隔的，而是用空格分隔的。您可以通过运行其中一个来验证这一点，cat -vet其中真实选项卡显示为^I。

要更改cut命令以使用空格作为分隔符，您需要添加 arg -d' '，但由于您已经在单引号和 awk 脚本内，因此您需要将其更改sprintf(...)为

sprintf("<(cut -d\" \"  -f4 %s)",$0)

Answer

最可能的答案是您的数据文件列不是用制表符分隔的，而是用空格分隔的。您可以通过运行其中一个来验证这一点，cat -vet其中真实选项卡显示为^I。

要更改cut命令以使用空格作为分隔符，您需要添加 arg -d' '，但由于您已经在单引号和 awk 脚本内，因此您需要将其更改sprintf(...)为

sprintf("<(cut -d\" \"  -f4 %s)",$0)

Question 2

对于不太大的文件：

while read -r f_part
do
    awk '
        BEGIN{
            SUBSEP=" "
        }
        NR==1{
            for(i=2;i<ARGC;i++)
                $(NF+1)=$NF
            print
        }
        FNR==1{
             next
        }
        {
             RES[$1,$2,$3]=RES[$1,$2,$3] $4 " "
        }
        END{
             for(i in RES)
                 print i, RES[i]
        }' *_${f_part}_* > big_table_${f_part}
done < <(printf '%s\n' *_*_*_*txt | cut -d_ -f3 | sort -u)

或者，如果您确定文件中的顺序正确：

while read -r f_part
do 
    set -- *_${f_part}_*
    sed -i 's/\s+/:/3;s/\s\+/\t/g;s/\s*$//' "$@"
    while [ $# -gt 1 ]
    do
        join -t: $1 $2 > tmp
        mv tmp big_table_${f_part}
        shift 2
        set -- big_table_${f_part} "$@"
    done
    sed 's/:/\t/g' big_table_${f_part}
done < <(printf '%s\n' *_*_*_*txt | cut -d_ -f3 | sort -u)

Answer

对于不太大的文件：

while read -r f_part
do
    awk '
        BEGIN{
            SUBSEP=" "
        }
        NR==1{
            for(i=2;i<ARGC;i++)
                $(NF+1)=$NF
            print
        }
        FNR==1{
             next
        }
        {
             RES[$1,$2,$3]=RES[$1,$2,$3] $4 " "
        }
        END{
             for(i in RES)
                 print i, RES[i]
        }' *_${f_part}_* > big_table_${f_part}
done < <(printf '%s\n' *_*_*_*txt | cut -d_ -f3 | sort -u)

或者，如果您确定文件中的顺序正确：

while read -r f_part
do 
    set -- *_${f_part}_*
    sed -i 's/\s+/:/3;s/\s\+/\t/g;s/\s*$//' "$@"
    while [ $# -gt 1 ]
    do
        join -t: $1 $2 > tmp
        mv tmp big_table_${f_part}
        shift 2
        set -- big_table_${f_part} "$@"
    done
    sed 's/:/\t/g' big_table_${f_part}
done < <(printf '%s\n' *_*_*_*txt | cut -d_ -f3 | sort -u)

Question 3

for f in rcp8p5 rcp4p5
do  : >"$f.txt"
    find . ! -name . -prune ! -type d -name "*_${f}_*txt" -exec \
        sh -c '
            printf "%s\t" YEAR MONTH DAY
            printf "%.0sRES\t" "$@"; echo
            sed -n "
                /^[0-9]/!d;p;:n
                n
                /^[0-9]/s/.*[[:blank:]]//p
                bn
            "  "$@" | paste
    ' --    {} + >>"$f.txt"
done

...我想我可能对你之前所做的事情有错误的认识，所以也许这可以弥补它。我不太确定这会起作用，但是，如果有效的话，它应该是方式比你正在做的事情更快。

基本上获取名称与或find匹配的文件列表，并将它们交给shell。...8......4...{} +

shell 打印一个标题行，以YEAR MONTH DAY每个开头，后跟一个\tab，然后打印RES与参数一样多的列。

然后sed将所有文件参数连接到一个流中，并完整打印以数字开头的第一行，并且后面的所有以数字开头的行仅打印最后一个字段。

sed的所有输出都传递给，它将输入中的paste所有 ewlines 替换为输出上的 abs 。\n\t

希望这个版本将要工作，因为调用一个新的子 shell 并为列表中的每个文件打开一个新管道几乎是一个糟糕的主意。

如果是的话，这将要但是，请在表格中为每组添加一个新行ARGMAX文件 - 这可能不是一件坏事，但之后很容易处理。

Answer

for f in rcp8p5 rcp4p5
do  : >"$f.txt"
    find . ! -name . -prune ! -type d -name "*_${f}_*txt" -exec \
        sh -c '
            printf "%s\t" YEAR MONTH DAY
            printf "%.0sRES\t" "$@"; echo
            sed -n "
                /^[0-9]/!d;p;:n
                n
                /^[0-9]/s/.*[[:blank:]]//p
                bn
            "  "$@" | paste
    ' --    {} + >>"$f.txt"
done