在 csv 文件中搜索模式

Question 1

我认为你需要一种更强大的编程语言来实现这一点。Python 是我的选择的语言，所以这里有一个简单的脚本，带有一个简单的测试示例：

import sys

tests = [
    lambda a, b, c, d, e: a+1==b and b+1==c and c+1==d and d+1==e,
]

with open(sys.argv[1]) as f:
    for line in f:
        if any(t(*map(int, line.split(','))) for t in tests):
            sys.stderr.write('Line removed: %s\n' % line)
            continue
        print line

这显然只是测试的一个框架示例，但应该可以使用。正常运行时，它将只将不匹配的行输出到 STDOUT，将匹配的行输出到 STDERR。这使得它对于重定向到新文件非常有用。

实际操作如下：

$ python patterns.py <(echo -n 1,2,3,4,5)
Line removed: 1,2,3,4,5

$ python patterns.py <(echo -n 1,2,4,4,5)
1,2,4,4,5

一旦你加载了模式，你就可以将其传递给 csv：python patterns.py input.csv

就性能而言，Python 并不总是最快的。我使用它是因为它对于 Web 开发来说足够快，并且编写时间也更快（这正是我花费时间/金钱的地方）。

你可以使用 PyPy 来加快速度。这是一个替代的 Python 运行时，基准测试结果非常出色。您可能不需要 PPA 版本（Trusty 发行版为 2.2，PPA 为 2.3.1），但您可以按照以下步骤操作：

sudo add-apt-repository ppa:pypy/ppa
sudo apt-get update
sudo apt-get install pypy

然后，您可以使用启动脚本，pypy script.py或者如果您直接执行它，则将开头更改为#!/usr/bin/env pypy。我做了一些非常对 350000 行输入文件进行简单测试（您的示例重复50000次) 使用上述脚本。

python2在 1.417 秒内运行完成，pypy在内运行完成0.645s。根据我的经验，使用更复杂的算法，您可能会看到更大的改进。

... 但这些都无法打败 C/C++ 同类程序。如果运行时间就是金钱，那就花点时间用更快的语言重新实现它吧。

Answer

我认为你需要一种更强大的编程语言来实现这一点。Python 是我的选择的语言，所以这里有一个简单的脚本，带有一个简单的测试示例：

import sys

tests = [
    lambda a, b, c, d, e: a+1==b and b+1==c and c+1==d and d+1==e,
]

with open(sys.argv[1]) as f:
    for line in f:
        if any(t(*map(int, line.split(','))) for t in tests):
            sys.stderr.write('Line removed: %s\n' % line)
            continue
        print line