从巨大的文件中 Grep 大量的模式

Question 1

当然，问题在于您对大文件运行 grep 10,000 次。您应该只读取这两个文件一次。如果您不想使用脚本语言，可以这样做：

从文件 1 中提取所有数字并对其进行排序
从文件 2 中提取所有数字并对它们进行排序
在排序列表上运行comm以获取仅在第二个列表中的内容

像这样的东西：

$ grep -o '^[0-9]\{12\}$' file1 | sort -u -o file1.sorted
$ grep -o  '[0-9]\{12\}'  file2 | sort -u -o file2.sorted
$ comm -13 file1.sorted file2.sorted > file3

看man comm。

如果您可以每天截断大文件（如日志文件），您可以保留排序数字的缓存，并且不需要每次都解析它。

Answer

当然，问题在于您对大文件运行 grep 10,000 次。您应该只读取这两个文件一次。如果您不想使用脚本语言，可以这样做：

从文件 1 中提取所有数字并对其进行排序
从文件 2 中提取所有数字并对它们进行排序
在排序列表上运行comm以获取仅在第二个列表中的内容

像这样的东西：

$ grep -o '^[0-9]\{12\}$' file1 | sort -u -o file1.sorted
$ grep -o  '[0-9]\{12\}'  file2 | sort -u -o file2.sorted
$ comm -13 file1.sorted file2.sorted > file3

看man comm。

如果您可以每天截断大文件（如日志文件），您可以保留排序数字的缓存，并且不需要每次都解析它。

Question 2

此答案基于awk发布的答案波东..对于相同的情况，它的速度是该方法（在我的系统上）
的两倍comm600万行在主文件中和1万键...（现已更新为使用 FNR、NR）

尽管awk比您当前的系统更快，并且会给您和您的计算机一些喘息空间，但请注意，当数据处理像您所描述的那样激烈时，通过切换到专用数据库您将获得最佳的整体结果；例如。 SQLite、MySQL...

awk '{ if (/^[^0-9]/) { next }              # Skip lines which do not hold key values
       if (FNR==NR) { main[$0]=1 }          # Process keys from file "mainfile"
       else if (main[$0]==0) { keys[$0]=1 } # Process keys from file "keys"
     } END { for(key in keys) print key }' \
       "mainfile" "keys" >"keys.not-in-main"

# For 6 million lines in "mainfile" and 10 thousand keys in "keys"

# The awk  method
# time:
#   real    0m14.495s
#   user    0m14.457s
#   sys     0m0.044s

# The comm  method
# time:
#   real    0m27.976s
#   user    0m28.046s
#   sys     0m0.104s

Answer

此答案基于awk发布的答案波东..对于相同的情况，它的速度是该方法（在我的系统上）
的两倍comm600万行在主文件中和1万键...（现已更新为使用 FNR、NR）

尽管awk比您当前的系统更快，并且会给您和您的计算机一些喘息空间，但请注意，当数据处理像您所描述的那样激烈时，通过切换到专用数据库您将获得最佳的整体结果；例如。 SQLite、MySQL...

awk '{ if (/^[^0-9]/) { next }              # Skip lines which do not hold key values
       if (FNR==NR) { main[$0]=1 }          # Process keys from file "mainfile"
       else if (main[$0]==0) { keys[$0]=1 } # Process keys from file "keys"
     } END { for(key in keys) print key }' \
       "mainfile" "keys" >"keys.not-in-main"

# For 6 million lines in "mainfile" and 10 thousand keys in "keys"

# The awk  method
# time:
#   real    0m14.495s
#   user    0m14.457s
#   sys     0m0.044s

# The comm  method
# time:
#   real    0m27.976s
#   user    0m28.046s
#   sys     0m0.104s

Question 3

是的，一定要使用数据库。它们正是为此类任务而设计的。

Answer

是的，一定要使用数据库。它们正是为此类任务而设计的。

Question 4

有了这么多数据，您确实应该切换到数据库。同时，要获得接近不错的性能，您必须做的一件事是不要file1单独搜索每个键。运行一次grep以一次性提取所有非排除键。由于这grep也会返回不包含键的行，因此将其过滤掉。

grep -o '[0-9]\{12\}' file2 |
grep -Fxv -f - file1 |
grep -vx '[0-9]\{12\}' >file3

（-Fx字面意思是搜索整行。-f -意思是从标准输入读取模式列表。）

Answer

有了这么多数据，您确实应该切换到数据库。同时，要获得接近不错的性能，您必须做的一件事是不要file1单独搜索每个键。运行一次grep以一次性提取所有非排除键。由于这grep也会返回不包含键的行，因此将其过滤掉。

grep -o '[0-9]\{12\}' file2 |
grep -Fxv -f - file1 |
grep -vx '[0-9]\{12\}' >file3

（-Fx字面意思是搜索整行。-f -意思是从标准输入读取模式列表。）

从巨大的文件中 Grep 大量的模式

答案1

答案2

答案3

答案4

相关内容