如何快速解析大型 ASCII 文件以查找匹配的记录？

Question

一个简单的 Python 脚本可能比你在 bash 中执行的任何操作都快。例如：

#!/usr/bin/python

with open("data") as data:
    with open("filtered", "w") as filtered:
        for row in data:
            values = row.split()
            if (int(values[1]) == 1) and (float(values[5]) >= 53.275):  # [1]
                filtered.write(row)

[1]：在 python 中索引从零开始，因此values[1]和values[5]分别是第二列和第六列。

如果不知道你的数据到底是什么样的，以及有多少数据与你的过滤器相匹配，就不可能进行正确的测试，但是对于几个快速拼凑在一起的样本文件，我得到了以下结果：

data_1   1000000 rows       35 matching rows   1.5 seconds
data_2   1000000 rows   565722 matching rows   3.1 seconds

Answer 1

一个简单的 Python 脚本可能比你在 bash 中执行的任何操作都快。例如：

#!/usr/bin/python

with open("data") as data:
    with open("filtered", "w") as filtered:
        for row in data:
            values = row.split()
            if (int(values[1]) == 1) and (float(values[5]) >= 53.275):  # [1]
                filtered.write(row)

[1]：在 python 中索引从零开始，因此values[1]和values[5]分别是第二列和第六列。

如果不知道你的数据到底是什么样的，以及有多少数据与你的过滤器相匹配，就不可能进行正确的测试，但是对于几个快速拼凑在一起的样本文件，我得到了以下结果：

data_1   1000000 rows       35 matching rows   1.5 seconds
data_2   1000000 rows   565722 matching rows   3.1 seconds

如何快速解析大型 ASCII 文件以查找匹配的记录？

答案1

相关内容