比较两个文件，忽略第一列并打印行号

Question 1

您可以使用 diff 命令和 cut 来查找两个文件中的差异。

diff <(cut -f2 -d$'\t' file1) <(cut -f2 -d$'\t' file2)

输出将是

3,4c3,4
< Tom
< Leonardo
---
> Tom'
> Nicolas

如果您担心更多的重复记录，那么您可以使用上面的命令来sort -u删除重复记录，然后再从其他文件中查找差异。命令将是

diff <(cut -f2 -d$'\t' file1|sort -u) <(cut -f2 -d$'\t' file2|sort -u)

Answer

您可以使用 diff 命令和 cut 来查找两个文件中的差异。

diff <(cut -f2 -d$'\t' file1) <(cut -f2 -d$'\t' file2)

输出将是

3,4c3,4
< Tom
< Leonardo
---
> Tom'
> Nicolas

如果您担心更多的重复记录，那么您可以使用上面的命令来sort -u删除重复记录，然后再从其他文件中查找差异。命令将是

diff <(cut -f2 -d$'\t' file1|sort -u) <(cut -f2 -d$'\t' file2|sort -u)

Question 2

尝试使用此代码，不知道这是否有效，因为我没有足够的数据：

diff --unchanged-line-format="" --old-line-format="" --new-line-format=":%dn: %L" file1 file2 | sed 1d | cut -d':' -f2 |tr '\n' ','|sed 's/,$//g'

Answer

尝试使用此代码，不知道这是否有效，因为我没有足够的数据：

diff --unchanged-line-format="" --old-line-format="" --new-line-format=":%dn: %L" file1 file2 | sed 1d | cut -d':' -f2 |tr '\n' ','|sed 's/,$//g'

Question 3

这可以回答你的问题：

awk 'NR==FNR{++a[$2,$3];next} {line++;if(!(a[$2,$3])){print line}}' record1 record2

解释：

FNR==NR

当您有两个（或更多）输入文件时awk，FNR 将在下一个文件的第一行重置回 1，而 NR 将从中断处继续递增。通过检查，FNR==NR我们实际上是在检查当前是否正在解析第一个文件。

++a[$2,$3]

如果我们正在解析第一个文件（见上文），则创建一个关联数组，其中第一个字段 $2 和第二个字段 $3 作为键，然后将值增加 1。这本质上让我们创建一个“已看到”列表。

next

该命令告诉 awk 不要处理任何进一步的命令并读入下一条记录并重新开始。我们这样做是因为 file1 仅用于设置关联数组

!(a[$2,$3])

该行仅在 FNR==NR 为 false 时执行，即我们不解析 file1，因此必须解析 file2。然后，我们使用 file2 的第一个字段 $1 和第二个字段 $2 作为索引到之前创建的“已查看”列表的键。如果返回的值为 0，则意味着我们在 file1 中没有看到它，因此我们应该打印这一行。相反，如果该值非零，那么我们确实在 file1 中看到了它，因此我们不应该打印它的值。请注意 !(a[$2,$3]) 相当于 !(a[$2,$3]){print} 因为未给出时的默认操作是打印整行。

Answer