如何根据列中的子字符串仅保存大文件中的重复行？

Question

awk

如果要测试的子字符串约为每行的 20%，并且您的文件为 100GB，则典型的awk解决方案可能需要高达 20GB 的内存。该解决方案需要对文件进行两遍解析（或者将所有行存储在内存中，这会更糟），首先将子字符串存储在关联数组中，同时计算它们的出现次数，然后打印任何不唯一的内容。

awk 'FNR==NR{seen[substr($0,22,16)]++; next} seen[substr($0,22,16)] > 1' file file

但在你的情况下，这个关联数组可能不适合内存。

种类

对于处理内存的解决方案，您可以使用sort.它将仅使用可用内存，如有必要，它将使用临时文件并对它们进行合并排序。它可能会慢一些，但即使在内存较低的情况下也可以做到。

LC_ALL=C sort -k1.22,1.37 file | uniq -D -s21 -w16

LC_ALL=C如果您的文件包含非 UTF-8 多字节字符，您可以删除，并且您可能还需要为sort命令定义不同的 tmp 位置，-T, --temporary-directory=DIR指向具有 100GB 可用空间和所需权限的某个位置，以防您/tmp没有 100 GB免费（有时/分区很小）

上面的代码uniq将跳过前 21 个字符并测试其后的前 16 个字符的唯一性。-D将仅打印重复的行。与此类似，上面的sort命令正在测试每一行的相同固定字符范围。

仅提取重复的子字符串 & awk

根据您的数据，您可以尝试这个解决方案，结合上面的想法并尝试适应内存并更快，实际上这是awk适合内存的解决方案。这个命令：

cut -c22-37 file | sort | uniq -d > subs.txt

将提取在文件中指定固定位置出现两次或多次的子字符串。它只会将它们每个打印一次到subs.txt.请注意，的大小subs.txt将小于第一个解决方案中关联数组的大小，因为已排除唯一值。

现在，如果的大小subs.txt足够小并且适合内存（这取决于重复频率），您只能解析该文件一次：

awk 'FNR==NR{seen[$0]; next} (substr($0,22,16) in seen)' subs.txt file >> output

或者，您可以将此文件拆分为 N 个部分，使用split -l并运行上述命令来解析该文件 N 次，每次都附加到同一个输出文件。根据的大小subs.txt，如果这可以在 1-2 步内完成，我认为它会比总排序解决方案更快。

Answer 1

awk

如果要测试的子字符串约为每行的 20%，并且您的文件为 100GB，则典型的awk解决方案可能需要高达 20GB 的内存。该解决方案需要对文件进行两遍解析（或者将所有行存储在内存中，这会更糟），首先将子字符串存储在关联数组中，同时计算它们的出现次数，然后打印任何不唯一的内容。

awk 'FNR==NR{seen[substr($0,22,16)]++; next} seen[substr($0,22,16)] > 1' file file

但在你的情况下，这个关联数组可能不适合内存。

种类

对于处理内存的解决方案，您可以使用sort.它将仅使用可用内存，如有必要，它将使用临时文件并对它们进行合并排序。它可能会慢一些，但即使在内存较低的情况下也可以做到。

LC_ALL=C sort -k1.22,1.37 file | uniq -D -s21 -w16

LC_ALL=C如果您的文件包含非 UTF-8 多字节字符，您可以删除，并且您可能还需要为sort命令定义不同的 tmp 位置，-T, --temporary-directory=DIR指向具有 100GB 可用空间和所需权限的某个位置，以防您/tmp没有 100 GB免费（有时/分区很小）

上面的代码uniq将跳过前 21 个字符并测试其后的前 16 个字符的唯一性。-D将仅打印重复的行。与此类似，上面的sort命令正在测试每一行的相同固定字符范围。

仅提取重复的子字符串 & awk

根据您的数据，您可以尝试这个解决方案，结合上面的想法并尝试适应内存并更快，实际上这是awk适合内存的解决方案。这个命令：

cut -c22-37 file | sort | uniq -d > subs.txt

将提取在文件中指定固定位置出现两次或多次的子字符串。它只会将它们每个打印一次到subs.txt.请注意，的大小subs.txt将小于第一个解决方案中关联数组的大小，因为已排除唯一值。

现在，如果的大小subs.txt足够小并且适合内存（这取决于重复频率），您只能解析该文件一次：

awk 'FNR==NR{seen[$0]; next} (substr($0,22,16) in seen)' subs.txt file >> output

或者，您可以将此文件拆分为 N 个部分，使用split -l并运行上述命令来解析该文件 N 次，每次都附加到同一个输出文件。根据的大小subs.txt，如果这可以在 1-2 步内完成，我认为它会比总排序解决方案更快。

如何根据列中的子字符串仅保存大文件中的重复行？

答案1

awk

种类

仅提取重复的子字符串 & awk

相关内容