问题

Question 1

最简单的方法写grep这个附加条件只是在写入文件之前通过另一个调用来传输输出：

find /var/logs/syslog -name \* -print0 | xargs -0 -n 1 -P 36 zgrep -f foo.txt | grep -v Duplicate > /tmp/bar.txt

在单独的单线程进程中执行此操作的性能将取决于搜索返回的记录数。如果与您的初始搜索匹配的行数只是 640GB 日志的一小部分，那么这应该不是问题。

由于根本问题也部分是关于整体优化此搜索，因此我会注意到您可以进行两项重大的额外增强：

使用固定字符串而不是正则表达式作为 grep 搜索项——从模式文件中删除反斜杠并将开关添加-F到 zgrep。（-w切换到仅匹配整个单词也可能是一个好主意。）搜索文字字符串比搜索正则表达式要快得多。
如果您的系统区域设置使用 UTF-8 但您的数据集仅为 ASCII，请LC_ALL=C在命令的环境中进行设置。在 128 个字符的 ASCII 集中，搜索速度比在大约 1000 倍大的 UTF-8 字符集中进行搜索要快得多。

Answer

最简单的方法写grep这个附加条件只是在写入文件之前通过另一个调用来传输输出：

find /var/logs/syslog -name \* -print0 | xargs -0 -n 1 -P 36 zgrep -f foo.txt | grep -v Duplicate > /tmp/bar.txt

在单独的单线程进程中执行此操作的性能将取决于搜索返回的记录数。如果与您的初始搜索匹配的行数只是 640GB 日志的一小部分，那么这应该不是问题。

由于根本问题也部分是关于整体优化此搜索，因此我会注意到您可以进行两项重大的额外增强：

使用固定字符串而不是正则表达式作为 grep 搜索项——从模式文件中删除反斜杠并将开关添加-F到 zgrep。（-w切换到仅匹配整个单词也可能是一个好主意。）搜索文字字符串比搜索正则表达式要快得多。
如果您的系统区域设置使用 UTF-8 但您的数据集仅为 ASCII，请LC_ALL=C在命令的环境中进行设置。在 128 个字符的 ASCII 集中，搜索速度比在大约 1000 倍大的 UTF-8 字符集中进行搜索要快得多。

Question 2

如果您有 GNU Parallel，您可以执行以下操作：

find /var/logs/syslog -name \* -print0 |
  parallel --lb -0 'zgrep -f foo.txt {} | grep -v Duplicate' > /tmp/bar.txt

相反，xargs -P使用 GNU Parallel 的输出保证不会混合行（根据 mywiki.wooledge.org/BashPitfalls#Non-atomic_writes_with_xargs_-P）。

Answer

如果您有 GNU Parallel，您可以执行以下操作：

find /var/logs/syslog -name \* -print0 |
  parallel --lb -0 'zgrep -f foo.txt {} | grep -v Duplicate' > /tmp/bar.txt

相反，xargs -P使用 GNU Parallel 的输出保证不会混合行（根据 mywiki.wooledge.org/BashPitfalls#Non-atomic_writes_with_xargs_-P）。

递归并行 Zgrep（不省略字符串）- 成功