Linux shell 命令按行长度过滤文本文件

Question 1

awk '{ if (length($0) < 16384) print }' yourfile >your_output_file.txt

将打印短于 16 千字节的行，如您自己的示例所示。

或者如果你喜欢 Perl：

perl -nle 'if (length($_) < 16384) { print }' yourfile >your_output_file.txt

Answer

awk '{ if (length($0) < 16384) print }' yourfile >your_output_file.txt

将打印短于 16 千字节的行，如您自己的示例所示。

或者如果你喜欢 Perl：

perl -nle 'if (length($_) < 16384) { print }' yourfile >your_output_file.txt

Question 2

这与安斯加（Ansgar）的答案类似，但在我的测试中速度稍快一些：

awk 'length($0) < 16384' infile >outfile

它的速度与其他 awk 答案相同。它依赖于print真表达式的隐式，但不需要像 Ansgar 那样花时间来分割行。

请注意，AWK 免费为您提供if。上述命令相当于：

awk 'length($0) < 16384 {print}' infile >outfile

与其他一些答案不同，这里没有明确的if（或其周围的花括号）。

以下是一种实现方法sed：

sed '/.\{16384\}/d' infile >outfile

或者：

sed -r '/.{16384}/d' infile >outfile

删除包含 16384 个（或更多）字符的任何行。

为了完整起见，您可以使用以下方法sed来保存长度超过阈值的行：

sed '/^.\{0,16383\}$/d' infile >outfile

Answer