扫描文本文件中是否有重复的 ID 号，并保留具有最高日期值的行，删除其他行

Question 1

假设您只想测试每个文件中的重复项，而不是跨所有文件，并且您不关心保留数据的输入顺序，那么他将使用任何版本的强制 POSIX 工具执行您想要的操作，因此它可以工作在任何 Unix 机器上：

$ cat tst.sh
#!/usr/bin/env bash

tmp=$(mktemp) || exit 1
sep=','
for file in "$@"; do
    {
        head -n 1 "$file" &&
        tail -n 2 "$file" |
            sort -t "$sep" -r -k 7,7 |
            awk -F "$sep" '$1 != prev { print; prev=$1 }'
    } > "$tmp" &&
    mv -- "$tmp" "$file"
done

例如：

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

$ ./tst.sh file*

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

请注意，只有sort上面的工具必须一次处理所有输入，其他工具一次只处理 1 行，并且sort旨在通过使用需求分页等来处理大文件，因此即使您也不太可能遇到内存问题如果您的输入文件很大。

如果您确实想保留输入行顺序，则可以更改以上内容以应用DSU 习语要做到这一点：

$ cat tst.sh
#!/usr/bin/env bash

tmp=$(mktemp) || exit 1
sep=','
for file in "$@"; do
    awk -v OFS="$sep" '{ print (NR>1), NR, $0 }' "$file" |
        sort -t "$sep" -k1,1 -k9,9r |
        awk -F "$sep" 'NR==1{print; next} $1 != prev{ print; prev=$1 }' |
        sort -t "$sep" -k1,1 -k2,2n |
        cut -d "$sep" -f3- \
    > "$tmp" &&
    mv -- "$tmp" "$file"
done

sort但在选择行之后确实需要一秒钟才能将输入恢复到其原始顺序。

如果你真的想使用一次 GNU awk 调用来完成这一切，同时保留输入顺序，那么它是：

$ cat tst.awk
BEGIN { FS="," }
FNR == 1 {
    delete id2maxTs
    delete id2fnr
    delete fnr2input
    print
    next
}
{ id=$1; ts=$7 }
!(id in id2maxTs) || (ts > id2maxTs[id]) {
    if ( id in id2fnr ) {
        prevFnr = id2fnr[id]
        delete fnr2input[prevFnr]
    }
    id2maxTs[id]   = ts
    id2fnr[id]     = FNR
    fnr2input[FNR] = $0
}
ENDFILE {
    for ( i=1; i<=FNR; i++ ) {
        if ( i in fnr2input ) {
            print fnr2input[i]
        }
    }
}

$ gawk -i inplace -f tst.awk file*

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00

该 gawk 脚本将保留原始输入顺序，但必须将每个输入文件的所有内容读入内存。

Answer

假设您只想测试每个文件中的重复项，而不是跨所有文件，并且您不关心保留数据的输入顺序，那么他将使用任何版本的强制 POSIX 工具执行您想要的操作，因此它可以工作在任何 Unix 机器上：

$ cat tst.sh
#!/usr/bin/env bash

tmp=$(mktemp) || exit 1
sep=','
for file in "$@"; do
    {
        head -n 1 "$file" &&
        tail -n 2 "$file" |
            sort -t "$sep" -r -k 7,7 |
            awk -F "$sep" '$1 != prev { print; prev=$1 }'
    } > "$tmp" &&
    mv -- "$tmp" "$file"
done

例如：

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

$ ./tst.sh file*

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-09-11 22:15:00

请注意，只有sort上面的工具必须一次处理所有输入，其他工具一次只处理 1 行，并且sort旨在通过使用需求分页等来处理大文件，因此即使您也不太可能遇到内存问题如果您的输入文件很大。

如果您确实想保留输入行顺序，则可以更改以上内容以应用DSU 习语要做到这一点：

$ cat tst.sh
#!/usr/bin/env bash

tmp=$(mktemp) || exit 1
sep=','
for file in "$@"; do
    awk -v OFS="$sep" '{ print (NR>1), NR, $0 }' "$file" |
        sort -t "$sep" -k1,1 -k9,9r |
        awk -F "$sep" 'NR==1{print; next} $1 != prev{ print; prev=$1 }' |
        sort -t "$sep" -k1,1 -k2,2n |
        cut -d "$sep" -f3- \
    > "$tmp" &&
    mv -- "$tmp" "$file"
done

sort但在选择行之后确实需要一秒钟才能将输入恢复到其原始顺序。

如果你真的想使用一次 GNU awk 调用来完成这一切，同时保留输入顺序，那么它是：

$ cat tst.awk
BEGIN { FS="," }
FNR == 1 {
    delete id2maxTs
    delete id2fnr
    delete fnr2input
    print
    next
}
{ id=$1; ts=$7 }
!(id in id2maxTs) || (ts > id2maxTs[id]) {
    if ( id in id2fnr ) {
        prevFnr = id2fnr[id]
        delete fnr2input[prevFnr]
    }
    id2maxTs[id]   = ts
    id2fnr[id]     = FNR
    fnr2input[FNR] = $0
}
ENDFILE {
    for ( i=1; i<=FNR; i++ ) {
        if ( i in fnr2input ) {
            print fnr2input[i]
        }
    }
}

$ gawk -i inplace -f tst.awk file*

$ cat file
foo,bar
ID12345,Here is some text,ABCDEFG,7,9,2022-08-18 20:15:00,2022-08-26 17:32:00

该 gawk 脚本将保留原始输入顺序，但必须将每个输入文件的所有内容读入内存。

Question 2

使用 GNU awkMKTIME()功能：

gawk -F, '
NR==1{ print; next }
{
    svn=dTime=$7
    gsub(/[-:]/, " ", dTime)
    dTime=mktime(dTime)
    sub(/,[^,]*$/, "")
}
dTime > gId[$0] {
    gId[$0]=dTime
    records[$0]=svn
}
END { for(rec in records) print rec, records[rec] }' infile

看通过 gawk 使用预定义的数组扫描顺序( PROCINFO["sorted_in"]) 设置输出时默认的数组 for 循环遍历。

Answer

使用 GNU awkMKTIME()功能：

gawk -F, '
NR==1{ print; next }
{
    svn=dTime=$7
    gsub(/[-:]/, " ", dTime)
    dTime=mktime(dTime)
    sub(/,[^,]*$/, "")
}
dTime > gId[$0] {
    gId[$0]=dTime
    records[$0]=svn
}
END { for(rec in records) print rec, records[rec] }' infile

看通过 gawk 使用预定义的数组扫描顺序( PROCINFO["sorted_in"]) 设置输出时默认的数组 for 循环遍历。

Question 3

结合sortawk

#get header line
head -1 infile
#work on data
tail +2 infile | sort -t, -r -k7 | awk -F, '!seen[$1]++'

=> 按第七个字段（日期字段）反向排序，即最新条目在前。然后仅打印具有第一个唯一 ID 的行。

注意事项：字符串中多余的逗号；如果相同的 ID 出现相同的日期，则该行按照反向排序的定义进行；日期字符串不使用前导/填充零或完全混合格式

Answer

结合sortawk

#get header line
head -1 infile
#work on data
tail +2 infile | sort -t, -r -k7 | awk -F, '!seen[$1]++'

=> 按第七个字段（日期字段）反向排序，即最新条目在前。然后仅打印具有第一个唯一 ID 的行。

注意事项：字符串中多余的逗号；如果相同的 ID 出现相同的日期，则该行按照反向排序的定义进行；日期字符串不使用前导/填充零或完全混合格式

扫描文本文件中是否有重复的 ID 号，并保留具有最高日期值的行，删除其他行

答案1

答案2

答案3

相关内容