zgrep 在多个文件中性能缓慢

Question 1

79MB 的 grep“字符串”使用起来会很痛苦。这些行是B.txt真正的正则表达式还是固定的相同字符串？如果它们是固定字符串，它们在A.gz整行中是否显示相同？未压缩中的多少行A.gz预计与中的行匹配B.txt？

模式匹配建议

如果中的行B.txt确实是正则表达式或行的子字符串，A.gz您可能会被迫使用类似的东西超扫描它旨在处理巨大的正则表达式。如果您有足够的磁盘空间，您可以解压缩A.gz，然后让 HyperScan 开始工作（您甚至可以让 shell 在 HyperScan 搜索时即时解压缩）。另一种尝试的替代方法是ripgrep。

全线搭配建议

如果您正在处理固定的全行字符串，B.txt并且未压缩的字符串A.gz包含相对较小（假设为 100MB 左右）的匹配行，那么编写一个程序进行预处理可能会更好A.gz：

您可以对每一行进行散列B.txt并记住散列
然后，您检查未压缩哈希值中的任何行是否A.gz与之前的任何哈希值相同。如果是这样，您打印出该行（例如进入C.txt）以准备进一步处理
现在，您将进行最后一次检查，更严格地检查每一行是否在B.txt其中C.txt（反之亦然 - 取决于哪个文件较小）

进行初始近似过滤的一些代码可能是这样的：

# Do a quick APPROXIMATE filter of lines in FILENEEDLES that are also in
# FILEHAYSTACK
import sys

def main():
    if len(sys.argv) < 2:
        print("usage: %s FILENEEDLES FILEHAYSTACK" % sys.argv[0])
        exit(1)

    first_filename = sys.argv[1]
    second_filename = sys.argv[2]

    line_hashes = set()

    with open(first_filename, "r") as f:
        for line in f:
            line_hashes.add(hash(line))

    with open(second_filename, "r") as f:
        for line in f:
            if hash(line) in line_hashes:
                sys.stdout.write(line)

if __name__ == "__main__":
    main()

例如：

$ echo -e '1\n2\n3' > B.txt
$ echo -e '2\n3\n4\5' | gzip > A.gz
$ ./approxfilter.py B.txt <(gzip -dc A.gz) > candidates.txt
$ cat candidates.txt
2
3

您现在需要检查candidates.txt以查看行输出是否完全匹配B.txt（但这希望是一个更小且更容易的问题，如果候选行的数量“小”，您甚至可以修改上面的程序来完成这一切“并且完全在内存中可以保存的范围内）。（提问者后来在评论中澄清，他们不使用全行长度字符串，因此这种方法不起作用）

Answer

79MB 的 grep“字符串”使用起来会很痛苦。这些行是B.txt真正的正则表达式还是固定的相同字符串？如果它们是固定字符串，它们在A.gz整行中是否显示相同？未压缩中的多少行A.gz预计与中的行匹配B.txt？

模式匹配建议

如果中的行B.txt确实是正则表达式或行的子字符串，A.gz您可能会被迫使用类似的东西超扫描它旨在处理巨大的正则表达式。如果您有足够的磁盘空间，您可以解压缩A.gz，然后让 HyperScan 开始工作（您甚至可以让 shell 在 HyperScan 搜索时即时解压缩）。另一种尝试的替代方法是ripgrep。

全线搭配建议

如果您正在处理固定的全行字符串，B.txt并且未压缩的字符串A.gz包含相对较小（假设为 100MB 左右）的匹配行，那么编写一个程序进行预处理可能会更好A.gz：

您可以对每一行进行散列B.txt并记住散列
然后，您检查未压缩哈希值中的任何行是否A.gz与之前的任何哈希值相同。如果是这样，您打印出该行（例如进入C.txt）以准备进一步处理
现在，您将进行最后一次检查，更严格地检查每一行是否在B.txt其中C.txt（反之亦然 - 取决于哪个文件较小）

进行初始近似过滤的一些代码可能是这样的：

# Do a quick APPROXIMATE filter of lines in FILENEEDLES that are also in
# FILEHAYSTACK
import sys

def main():
    if len(sys.argv) < 2:
        print("usage: %s FILENEEDLES FILEHAYSTACK" % sys.argv[0])
        exit(1)

    first_filename = sys.argv[1]
    second_filename = sys.argv[2]

    line_hashes = set()

    with open(first_filename, "r") as f:
        for line in f:
            line_hashes.add(hash(line))

    with open(second_filename, "r") as f:
        for line in f:
            if hash(line) in line_hashes:
                sys.stdout.write(line)

if __name__ == "__main__":
    main()

例如：

$ echo -e '1\n2\n3' > B.txt
$ echo -e '2\n3\n4\5' | gzip > A.gz
$ ./approxfilter.py B.txt <(gzip -dc A.gz) > candidates.txt
$ cat candidates.txt
2
3

您现在需要检查candidates.txt以查看行输出是否完全匹配B.txt（但这希望是一个更小且更容易的问题，如果候选行的数量“小”，您甚至可以修改上面的程序来完成这一切“并且完全在内存中可以保存的范围内）。（提问者后来在评论中澄清，他们不使用全行长度字符串，因此这种方法不起作用）

Question 2

您的第二次尝试很可能通过解压缩得到改进，否则循环的每次迭代都将具有完整的解压缩开销 - 提前解压缩将意味着您只有一次该开销。

如果这仍然不够快，您也可以尝试多线程（假设解压 A）。

find B -type f -name 'B*' -print0 \
  | xargs -0 -t -n1 -P8 \
  grep -f {} A >> C.xml

此示例应同时运行 8 个进程，您可能需要根据您拥有的处理器/核心数量调整此值。

我不确定您期望的速度结果是什么样的；坦率地说，听起来你给了它很多工作要做，而很多工作都需要时间。

Answer

您的第二次尝试很可能通过解压缩得到改进，否则循环的每次迭代都将具有完整的解压缩开销 - 提前解压缩将意味着您只有一次该开销。

如果这仍然不够快，您也可以尝试多线程（假设解压 A）。

find B -type f -name 'B*' -print0 \
  | xargs -0 -t -n1 -P8 \
  grep -f {} A >> C.xml

此示例应同时运行 8 个进程，您可能需要根据您拥有的处理器/核心数量调整此值。

我不确定您期望的速度结果是什么样的；坦率地说，听起来你给了它很多工作要做，而很多工作都需要时间。

Question 3

zgrep只是的 shell 脚本包装器grep。它只是运行grep您系统上安装的任何内容并用于gzip解压缩输入文件。

如果您使用的是 GNU grep 版本 3.5 或 3.6，最近发现了一个错误，该错误似乎会减慢模式文件的处理速度，正如您所描述的，性能极度下降。

grep 3.7 发行说明中的错误示例模式文件大约有 48 Mb 的模式，因此据我所知，大小应该不是问题。

https://www.theregister.com/2021/08/16/gnu_grep_37/

Answer

zgrep只是的 shell 脚本包装器grep。它只是运行grep您系统上安装的任何内容并用于gzip解压缩输入文件。

如果您使用的是 GNU grep 版本 3.5 或 3.6，最近发现了一个错误，该错误似乎会减慢模式文件的处理速度，正如您所描述的，性能极度下降。

grep 3.7 发行说明中的错误示例模式文件大约有 48 Mb 的模式，因此据我所知，大小应该不是问题。

https://www.theregister.com/2021/08/16/gnu_grep_37/

zgrep 在多个文件中性能缓慢

答案1

模式匹配建议

全线搭配建议

答案2

答案3

相关内容