比较 bash 脚本中的多个文件

Question 1

$ FILES=( $(find -maxdepth 1 -type f -printf "%P\n") )

$ cat ${FILES[@]} | 
sort |
uniq -d |
xargs -r -d '\n' -I{} bash -c '
  echo $(sed "s/ / and /g" <<<$(grep -xl "{}" '"${FILES[*]}"')), {}'

结果：

file3.txt and file4.txt, modeule_name_11
file1.txt and file2.txt, modeule_name_2
file1.txt and file3.txt, modeule_name_4
file1.txt and file3.txt and file4.txt, modeule_name_5
file2.txt and file3.txt, modeule_name_6

说明：

FILES=( $(find -maxdepth 1 -type f -printf "%P\n") )-$FILES将是一个保存文件列表的数组。
cat ${FILES[@]}- 打印文件的内容。
sort | uniq -d- 只显示重复的行（即出现在多个文件中的行），因为没有必要检查我们知道未出现在其他文件中的行。
xargs -r -d '\n' -I{} bash -c '- 对于每一行执行以下脚本。分隔符是一个新行，因此它可以支持特殊字符。{}将替换为我们正在查找的行
grep -xl "{}" '"${FILES[*]}"'-l- 对于每一行，打印与整行 ( ) 匹配的文件 ( -x)。
sed "s/ / and /g" <<<$(grep ... ))- 将匹配文件之间的空格替换为“ 和 ”。
echo $(...), {}- 打印匹配列表，后跟匹配行 ( {})。

Answer

$ FILES=( $(find -maxdepth 1 -type f -printf "%P\n") )

$ cat ${FILES[@]} | 
sort |
uniq -d |
xargs -r -d '\n' -I{} bash -c '
  echo $(sed "s/ / and /g" <<<$(grep -xl "{}" '"${FILES[*]}"')), {}'

结果：

file3.txt and file4.txt, modeule_name_11
file1.txt and file2.txt, modeule_name_2
file1.txt and file3.txt, modeule_name_4
file1.txt and file3.txt and file4.txt, modeule_name_5
file2.txt and file3.txt, modeule_name_6

说明：

FILES=( $(find -maxdepth 1 -type f -printf "%P\n") )-$FILES将是一个保存文件列表的数组。
cat ${FILES[@]}- 打印文件的内容。
sort | uniq -d- 只显示重复的行（即出现在多个文件中的行），因为没有必要检查我们知道未出现在其他文件中的行。
xargs -r -d '\n' -I{} bash -c '- 对于每一行执行以下脚本。分隔符是一个新行，因此它可以支持特殊字符。{}将替换为我们正在查找的行
grep -xl "{}" '"${FILES[*]}"'-l- 对于每一行，打印与整行 ( ) 匹配的文件 ( -x)。
sed "s/ / and /g" <<<$(grep ... ))- 将匹配文件之间的空格替换为“ 和 ”。
echo $(...), {}- 打印匹配列表，后跟匹配行 ( {})。

Question 2

将所有数据连接到一个流中，但为每一行添加文件名前缀。假设数据中没有制表符，我们可以使用制表符作为文件名和原始数据之间的分隔符。然后按第二个制表符分隔字段对数据进行分组，并将文件名折叠到每个组的逗号分隔列表中。

awk -v OFS='\t' '{ print FILENAME, $0 }' *.txt |
datamash --sort groupby 2 collapse 1

给定问题中数据的输出（可以通过传递eg来反转字段的顺序datamash cut 2,1）：

statement_modeule_name_1        file_one.txt
statement_modeule_name_10       onefile.txt
statement_modeule_name_11       Data_New.txt,onefile.txt
statement_modeule_name_14       onefile.txt
statement_modeule_name_15       Data_New.txt
statement_modeule_name_16       Data_New.txt
statement_modeule_name_17       Data_New.txt
statement_modeule_name_2        Fetch_Data.txt,file_one.txt
statement_modeule_name_3        file_one.txt
statement_modeule_name_4        file_one.txt,onefile.txt
statement_modeule_name_5        Data_New.txt,file_one.txt
statement_modeule_name_6        Fetch_Data.txt,onefile.txt
statement_modeule_name_7        Fetch_Data.txt
statement_modeule_name_8        Fetch_Data.txt
statement_modeule_name_9        Fetch_Data.txt

或者，使用 Miller ( mlr) 代替 GNU datamash：

awk -v OFS='\t' '{ print FILENAME, $0 }' *.txt | 
mlr --tsv -N nest --ivar , -f 1

给出问题中数据的输出：

Data_New.txt    statement_modeule_name_15
Data_New.txt    statement_modeule_name_16
Data_New.txt,onefile.txt        statement_modeule_name_11
Data_New.txt,file_one.txt       statement_modeule_name_5
Data_New.txt    statement_modeule_name_17
Fetch_Data.txt,onefile.txt      statement_modeule_name_6
Fetch_Data.txt  statement_modeule_name_7
Fetch_Data.txt,file_one.txt     statement_modeule_name_2
Fetch_Data.txt  statement_modeule_name_8
Fetch_Data.txt  statement_modeule_name_9
file_one.txt    statement_modeule_name_1
file_one.txt    statement_modeule_name_3
file_one.txt,onefile.txt        statement_modeule_name_4
onefile.txt     statement_modeule_name_10
onefile.txt     statement_modeule_name_14

Answer

将所有数据连接到一个流中，但为每一行添加文件名前缀。假设数据中没有制表符，我们可以使用制表符作为文件名和原始数据之间的分隔符。然后按第二个制表符分隔字段对数据进行分组，并将文件名折叠到每个组的逗号分隔列表中。

awk -v OFS='\t' '{ print FILENAME, $0 }' *.txt |
datamash --sort groupby 2 collapse 1

给定问题中数据的输出（可以通过传递eg来反转字段的顺序datamash cut 2,1）：

statement_modeule_name_1        file_one.txt
statement_modeule_name_10       onefile.txt
statement_modeule_name_11       Data_New.txt,onefile.txt
statement_modeule_name_14       onefile.txt
statement_modeule_name_15       Data_New.txt
statement_modeule_name_16       Data_New.txt
statement_modeule_name_17       Data_New.txt
statement_modeule_name_2        Fetch_Data.txt,file_one.txt
statement_modeule_name_3        file_one.txt
statement_modeule_name_4        file_one.txt,onefile.txt
statement_modeule_name_5        Data_New.txt,file_one.txt
statement_modeule_name_6        Fetch_Data.txt,onefile.txt
statement_modeule_name_7        Fetch_Data.txt
statement_modeule_name_8        Fetch_Data.txt
statement_modeule_name_9        Fetch_Data.txt

或者，使用 Miller ( mlr) 代替 GNU datamash：

awk -v OFS='\t' '{ print FILENAME, $0 }' *.txt | 
mlr --tsv -N nest --ivar , -f 1

给出问题中数据的输出：

Data_New.txt    statement_modeule_name_15
Data_New.txt    statement_modeule_name_16
Data_New.txt,onefile.txt        statement_modeule_name_11
Data_New.txt,file_one.txt       statement_modeule_name_5
Data_New.txt    statement_modeule_name_17
Fetch_Data.txt,onefile.txt      statement_modeule_name_6
Fetch_Data.txt  statement_modeule_name_7
Fetch_Data.txt,file_one.txt     statement_modeule_name_2
Fetch_Data.txt  statement_modeule_name_8
Fetch_Data.txt  statement_modeule_name_9
file_one.txt    statement_modeule_name_1
file_one.txt    statement_modeule_name_3
file_one.txt,onefile.txt        statement_modeule_name_4
onefile.txt     statement_modeule_name_10
onefile.txt     statement_modeule_name_14

Question 3

comm是你的朋友。对于两个文件：

$ comm -12 <(sort file_one.txt) <(sort Fetch_Data.txt)
statement_modeule_name_2

txt对于当前目录下的所有文件：

for FILE1 in *.txt; do
  for FILE2 in *.txt; do
    [ "$FILE1" == "$FILE2" ] && continue
    echo "$FILE1  $FILE2  $(comm -12 <(sort $FILE1) <(sort $FILE2))"
  done
done

ps：该解决方案有点多余，因为它会比较file1andfile2和 laterfile2以及file1...

输出您的数据：

Data_New.txt  Fetch_Data.txt  
Data_New.txt  file_one.txt  statement_modeule_name_5
Data_New.txt  onefile.txt  statement_modeule_name_11
Fetch_Data.txt  Data_New.txt  
Fetch_Data.txt  file_one.txt  statement_modeule_name_2
Fetch_Data.txt  onefile.txt  statement_modeule_name_6
file_one.txt  Data_New.txt  statement_modeule_name_5
file_one.txt  Fetch_Data.txt  statement_modeule_name_2
file_one.txt  onefile.txt  statement_modeule_name_4
onefile.txt  Data_New.txt  statement_modeule_name_11
onefile.txt  Fetch_Data.txt  statement_modeule_name_6
onefile.txt  file_one.txt  statement_modeule_name_4

更多关于comm这里的另一个主题：两个文件之间的公共行

Answer