加速确定行中所有列是否相同的脚本

Question 1

$ awk -F, '{ for (i=2; i<=NF; ++i) if ($i != $1) { print "no_match"; next } print $1 }' file
1-69
no_match
1-46
no_match
6-1
5-51
4-59

抱歉，我什至没有看你的代码，发生了太多事情。当您发现自己awk在循环体中对相同数据调用了三次时，您将不得不寻找其他方法来更有效地完成它。另外，如果您涉及awk，您不需要grep并且cut可以awk轻松完成他们的任务（尽管在本例中不需要）。

上面的脚本awk一次读取一行以逗号分隔的行，并将每个字段与第一个字段进行比较。如果任何测试失败，no_match则会打印该字符串，并且脚本继续执行下一行。如果循环完成（没有发现不匹配），则打印第一个字段。

作为脚本：

#!/usr/bin/awk -f

BEGIN { FS = "," }

{
    for (i=2; i<=NF; ++i)
        if ($i != $1) {
            print "no_match"
            next
        }

    print $1
}

FS是输入字段分隔符，也可以使用-F命令行上的选项进行设置。awk将分割该字符上的每一行以创建字段。
NF是当前记录中的字段数（“行上的列数”）。
$i指当前记录中的第 i:th 字段，其中i可以是变量或常量（如中$1）。

有关的：

为什么使用 shell 循环处理文本被认为是不好的做法？

干燥变化：

#!/usr/bin/awk -f

BEGIN { FS = "," }

{
    output = $1

    for (i=2; i<=NF; ++i)
        if ($i != output) {
            output = "no_match"
            break
        }

    print output
}

Answer

$ awk -F, '{ for (i=2; i<=NF; ++i) if ($i != $1) { print "no_match"; next } print $1 }' file
1-69
no_match
1-46
no_match
6-1
5-51
4-59

抱歉，我什至没有看你的代码，发生了太多事情。当您发现自己awk在循环体中对相同数据调用了三次时，您将不得不寻找其他方法来更有效地完成它。另外，如果您涉及awk，您不需要grep并且cut可以awk轻松完成他们的任务（尽管在本例中不需要）。

上面的脚本awk一次读取一行以逗号分隔的行，并将每个字段与第一个字段进行比较。如果任何测试失败，no_match则会打印该字符串，并且脚本继续执行下一行。如果循环完成（没有发现不匹配），则打印第一个字段。

作为脚本：

#!/usr/bin/awk -f

BEGIN { FS = "," }

{
    for (i=2; i<=NF; ++i)
        if ($i != $1) {
            print "no_match"
            next
        }

    print $1
}

FS是输入字段分隔符，也可以使用-F命令行上的选项进行设置。awk将分割该字符上的每一行以创建字段。
NF是当前记录中的字段数（“行上的列数”）。
$i指当前记录中的第 i:th 字段，其中i可以是变量或常量（如中$1）。

有关的：

为什么使用 shell 循环处理文本被认为是不好的做法？

干燥变化：

#!/usr/bin/awk -f

BEGIN { FS = "," }

{
    output = $1

    for (i=2; i<=NF; ++i)
        if ($i != output) {
            output = "no_match"
            break
        }

    print output
}

Question 2

Awk 是一种完整的编程语言。你已经使用它了。但不要仅将其用于每行多次调用的简单任务，而应将其用于整个任务。 awk 中使用字段分隔符，不要使用 cut。在 awk 中进行完整的处理。

awk -F',' '
{ 
  eq=1; 
  for (i = 2; i <= NF; i++)
    if ($1 != $i)
      eq=0;
  print eq ? $1 : "no_match";
}
' $1

Answer

Awk 是一种完整的编程语言。你已经使用它了。但不要仅将其用于每行多次调用的简单任务，而应将其用于整个任务。 awk 中使用字段分隔符，不要使用 cut。在 awk 中进行完整的处理。

awk -F',' '
{ 
  eq=1; 
  for (i = 2; i <= NF; i++)
    if ($1 != $i)
      eq=0;
  print eq ? $1 : "no_match";
}
' $1

Question 3

使用 perl List::MoreUtils，通过评估标量上下文中的distinct/元素：uniq

perl -MList::MoreUtils=distinct -F, -lne '
  print( (distinct @F) > 1 ? "no_match" : $F[0])
' example 
1-69
no_match
1-46
no_match
6-1
5-51
4-59

Answer

使用 perl List::MoreUtils，通过评估标量上下文中的distinct/元素：uniq

perl -MList::MoreUtils=distinct -F, -lne '
  print( (distinct @F) > 1 ? "no_match" : $F[0])
' example 
1-69
no_match
1-46
no_match
6-1
5-51
4-59

Question 4

您也可以使用编辑器执行此操作sed，如下所示：

sed -e '
    s/^\([^,]*\)\(,\1\)*$/\1/;t
    s/.*/NOMATCH/
' input.csv

在这里，我们依靠进行regex自我乘法并到达行尾。如果能够这样做，则以第一个字段终止，否则 flash NOMATCH。

解释：

当我看到这个 pbm 时，我的脑海中浮现出这样的想法：
想想不同颜色的comma-separated fieldsas 。stones想象它们是否可以排成一行，作为第一块石头的重复，并在它们前面加上逗号。

就像是：

STONEA ,STONEA ,STONEA ,STONEA ... all the way to end of line

现在，就正则表达式术语而言，它变成：

^ (STONEA) (,\1) (,\1) (,\1) ... all the way to end of line

^ (STONEA) (,\1)* $

输出：

1-69
NOMATCH
1-46
NOMATCH
6-1
5-51
4-59

Answer