比较内容并生成新文件

Question 1

grep可以配备文件包含要搜索的模式：

$ grep -f 1.txt 2.txt
OG5_126568  psychrobacter_aquaticus.txt WP_021813339.1
OG5_126583  psychrobacter_aquaticus.txt WP_040642027.1
OG5_126593  psychrobacter_aquaticus.txt WP_021813641.1
OG5_126593  psychrobacter_aquaticus.txt WP_021814787.1

这将打印2.txt包含中给出的任何模式的每一行1.txt。

Answer

grep可以配备文件包含要搜索的模式：

$ grep -f 1.txt 2.txt
OG5_126568  psychrobacter_aquaticus.txt WP_021813339.1
OG5_126583  psychrobacter_aquaticus.txt WP_040642027.1
OG5_126593  psychrobacter_aquaticus.txt WP_021813641.1
OG5_126593  psychrobacter_aquaticus.txt WP_021814787.1

这将打印2.txt包含中给出的任何模式的每一行1.txt。

Question 2

如果两个文件都按第一列排序，则使用以下join命令：

join file1 file2

Answer

如果两个文件都按第一列排序，则使用以下join命令：

join file1 file2

Question 3

笔记：我已编辑了我的回复，我想我已经理解了这个问题。

和磨坊主（此处为最新的 Linux 二进制文件https://github.com/johnkerl/miller/releases/download/5.4.0/mlr.linux.x86_64）你可以开始收集文件数量

mlr --nidx --fs ' ' --repifs cut -f 2 then uniq -a 2.txt | wc -l >./filesnumber.txt

他们是 3：

psychrobacter_aquaticus.txt
psychrobacter_phenylpyruvicus.txt
psychrobacter_piscatorii.txt

然后你可以用

mlr --nidx --fs ' ' --repifs cut -f 1,2 then uniq -a 2.txt >./distinctValues.txt

这些都是

OG5_126568 psychrobacter_aquaticus.txt
OG5_126583 psychrobacter_aquaticus.txt
OG5_126583 psychrobacter_phenylpyruvicus.txt
OG5_126585 psychrobacter_piscatorii.txt
OG5_126593 psychrobacter_aquaticus.txt
OG5_126593 psychrobacter_piscatorii.txt
OG5_126593 psychrobacter_phenylpyruvicus.txt

然后，您可以仅过滤字段 1 中不同值计数为 3 的记录

mlr --nidx --ifs ' ' --repifs cut -f 1 then count-distinct -f 1 \
then filter '$count=='"$(cat filesnumber.txt)"'' \
then cut -f 1 distinctValues.txt >./okValue.txt

它可以给你你想要的东西：OG5_126593。

最后你可以应用连接

mlr --nidx --fs ' ' --repifs join -j 1 -f okValue.txt 2.txt

这让你回

OG5_126593 psychrobacter_aquaticus.txt WP_021813641.1
OG5_126593 psychrobacter_aquaticus.txt WP_021814787.1
OG5_126593 psychrobacter_piscatorii.txt WP_021814787.1
OG5_126593 psychrobacter_phenylpyruvicus.txt WP_021814787.1

我已经使用了这两个输入文件

OG5_126568
OG5_126583
OG5_126593
OG5_126596
OG5_126599
OG5_126609


OG5_126568  psychrobacter_aquaticus.txt WP_021813339.1
OG5_126583  psychrobacter_aquaticus.txt WP_040642027.1
OG5_126583  psychrobacter_phenylpyruvicus.txt   WP_028858051.1
OG5_126585  psychrobacter_piscatorii.txt    WP_058023688.1
OG5_126593  psychrobacter_aquaticus.txt WP_021813641.1
OG5_126593  psychrobacter_aquaticus.txt WP_021814787.1
OG5_126593  psychrobacter_piscatorii.txt WP_021814787.1
OG5_126593  psychrobacter_phenylpyruvicus.txt   WP_021814787.1

Answer