提取包含模式文件的行并将它们保存在不同的文件中 grep、sed、awk、print

Question 1

给定一个patterns文件：

$ cat patterns
tom_fa_10005086
tom_fa_10013928
tom_fa_10000024
tom_fa_10011338
tom_fa_10003474

然后

awk 'NR==FNR{a[$1]=NR; next} $NF in a {print > "outfile" a[$NF]}' patterns file

结果如下文件：

$ head outfile?
==> outfile1 <==
-   .   ID  =   tom_fa_10005086
-   0   Parent  =   tom_fa_10005086
-   0   Parent  =   tom_fa_10005086
-   2   Parent  =   tom_fa_10005086
-   1   Parent  =   tom_fa_10005086
-   0   Parent  =   tom_fa_10005086
-   0   Parent  =   tom_fa_10005086

==> outfile2 <==
+   .   ID  =   tom_fa_10013928
+   0   Parent  =   tom_fa_10013928
+   0   Parent  =   tom_fa_10013928
+   0   Parent  =   tom_fa_10013928
+   0   Parent  =   tom_fa_10013928
+   2   Parent  =   tom_fa_10013928
+   2   Parent  =   tom_fa_10013928
+   1   Parent  =   tom_fa_10013928
+   1   Parent  =   tom_fa_10013928
+   2   Parent  =   tom_fa_10013928

==> outfile3 <==
-   .   ID  =   tom_fa_10000024
-   0   Parent  =   tom_fa_10000024

Answer

给定一个patterns文件：

$ cat patterns
tom_fa_10005086
tom_fa_10013928
tom_fa_10000024
tom_fa_10011338
tom_fa_10003474

然后

awk 'NR==FNR{a[$1]=NR; next} $NF in a {print > "outfile" a[$NF]}' patterns file

结果如下文件：

$ head outfile?
==> outfile1 <==
-   .   ID  =   tom_fa_10005086
-   0   Parent  =   tom_fa_10005086
-   0   Parent  =   tom_fa_10005086
-   2   Parent  =   tom_fa_10005086
-   1   Parent  =   tom_fa_10005086
-   0   Parent  =   tom_fa_10005086
-   0   Parent  =   tom_fa_10005086

==> outfile2 <==
+   .   ID  =   tom_fa_10013928
+   0   Parent  =   tom_fa_10013928
+   0   Parent  =   tom_fa_10013928
+   0   Parent  =   tom_fa_10013928
+   0   Parent  =   tom_fa_10013928
+   2   Parent  =   tom_fa_10013928
+   2   Parent  =   tom_fa_10013928
+   1   Parent  =   tom_fa_10013928
+   1   Parent  =   tom_fa_10013928
+   2   Parent  =   tom_fa_10013928

==> outfile3 <==
-   .   ID  =   tom_fa_10000024
-   0   Parent  =   tom_fa_10000024

Question 2

假设您的第一个大文件被命名为target.txt，第二个较小的文件被命名为source.txt.

tail +3 source.txt | while IFS= read -r line; do grep "$line" target.txt > "$line"; done

解释

tail +3 source.txt: 删除前两行source.txt
| while IFS= read -r line; do <FOO>; done：将此截断的文件通过管道传输到while read构造中。这将迭代 truncated 的每一行source.txt，<FOO>对每一行执行操作。
grep "$line" target.txt > "$line"：对于每一source.txt行，在中查找它target.txt，然后写入与您搜索的原始字符串同名的文件。

一个小评论：如果source.txt实际上包含固定字符串而不是模式，则可以使用-F的选项grep。

Answer

假设您的第一个大文件被命名为target.txt，第二个较小的文件被命名为source.txt.

tail +3 source.txt | while IFS= read -r line; do grep "$line" target.txt > "$line"; done

解释

tail +3 source.txt: 删除前两行source.txt
| while IFS= read -r line; do <FOO>; done：将此截断的文件通过管道传输到while read构造中。这将迭代 truncated 的每一行source.txt，<FOO>对每一行执行操作。
grep "$line" target.txt > "$line"：对于每一source.txt行，在中查找它target.txt，然后写入与您搜索的原始字符串同名的文件。

一个小评论：如果source.txt实际上包含固定字符串而不是模式，则可以使用-F的选项grep。

提取包含模式文件的行并将它们保存在不同的文件中 grep、sed、awk、print

答案1

答案2

解释

相关内容