如何删除文件中少于 6 个字符的所有行？

Question 1

有很多方法可以做到这一点。

使用grep：

grep -E '^.{6,}$' file.txt >out.txt

现在out.txt将包含具有六个或更多字符的行。

反向方式：

grep -vE '^.{,5}$' file.txt >out.txt

使用sed，删除长度为 5 或更短的行：

sed -r '/^.{,5}$/d' file.txt

反向方式，打印长度为六行或更多行：

sed -nr '/^.{6,}$/p' file.txt

>您可以使用类似运算符将输出保存在不同文件中，或者使用以下选项grep就地编辑文件：-ised

sed -ri.bak '/^.{6,}$/' file.txt

原始文件将备份为file.txt.bak，修改后的文件将为file.txt。

如果您不想保留备份：

sed -ri '/^.{6,}$/' file.txt

使用 shell，慢点，不要这样做，这只是为了展示另一种方法：

while IFS= read -r line; do [ "${#line}" -ge 6 ] && echo "$line"; done <file.txt

使用python，甚至比grep，更慢sed：

#!/usr/bin/env python2
with open('file.txt') as f:
    for line in f:
        if len(line.rstrip('\n')) >= 6:
            print line.rstrip('\n')

更好地使用列表推导来更加符合 Python 风格：

#!/usr/bin/env python2
with open('file.txt') as f:
     strip = str.rstrip
     print '\n'.join([line for line in f if len(strip(line, '\n')) >= 6]).rstrip('\n')

Answer

有很多方法可以做到这一点。

使用grep：

grep -E '^.{6,}$' file.txt >out.txt

现在out.txt将包含具有六个或更多字符的行。

反向方式：

grep -vE '^.{,5}$' file.txt >out.txt

使用sed，删除长度为 5 或更短的行：

sed -r '/^.{,5}$/d' file.txt

反向方式，打印长度为六行或更多行：

sed -nr '/^.{6,}$/p' file.txt

>您可以使用类似运算符将输出保存在不同文件中，或者使用以下选项grep就地编辑文件：-ised

sed -ri.bak '/^.{6,}$/' file.txt

原始文件将备份为file.txt.bak，修改后的文件将为file.txt。

如果您不想保留备份：

sed -ri '/^.{6,}$/' file.txt

使用 shell，慢点，不要这样做，这只是为了展示另一种方法：

while IFS= read -r line; do [ "${#line}" -ge 6 ] && echo "$line"; done <file.txt

使用python，甚至比grep，更慢sed：

#!/usr/bin/env python2
with open('file.txt') as f:
    for line in f:
        if len(line.rstrip('\n')) >= 6:
            print line.rstrip('\n')

更好地使用列表推导来更加符合 Python 风格：

#!/usr/bin/env python2
with open('file.txt') as f:
     strip = str.rstrip
     print '\n'.join([line for line in f if len(strip(line, '\n')) >= 6]).rstrip('\n')

Question 2

这很简单：

grep ...... inputfile > resultfile   #There are 6 dots

这是非常有效的，因为grep不会尝试解析超出其需要的内容，也不会以任何方式解释字符：它只是将（整）行发送到 stdout（然后 shell 将其重定向到 resultfile）立刻它在该行上看到 6 个字符（.在正则表达式上下文中匹配任何 1 个字符）。

因此 grep 只会输出包含 6 个（或更多）字符的行，而其他字符不会被 grep 输出，所以它们不会出现在结果文件中。

Answer

这很简单：

grep ...... inputfile > resultfile   #There are 6 dots

这是非常有效的，因为grep不会尝试解析超出其需要的内容，也不会以任何方式解释字符：它只是将（整）行发送到 stdout（然后 shell 将其重定向到 resultfile）立刻它在该行上看到 6 个字符（.在正则表达式上下文中匹配任何 1 个字符）。

因此 grep 只会输出包含 6 个（或更多）字符的行，而其他字符不会被 grep 输出，所以它们不会出现在结果文件中。

Question 3

解决方案 #1：使用 C

最快的方法：编译并运行这个 C 程序：

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define MAX_BUFFER_SIZE 1000000

int main(int argc, char *argv[]) {
    int length;

    if(argc == 3)
        length = atoi(argv[2]);
    else
        return 1;

    FILE *file = fopen(argv[1], "r");

    if(file != NULL) {
        char line[MAX_BUFFER_SIZE];

        while(fgets(line, sizeof line, file) != NULL) {
            char *pos;

            if((pos = strchr(line, '\n')) != NULL)
                *pos = '\0';
            if(strlen(line) >= length)
                printf("%s\n", line);
        }

        fclose(file);
    }
    else {
        perror(argv[1]);
        return 1;
    }
    
    return 0;
}

使用进行编译gcc program.c -o program，使用运行./program file line_length（其中file= 文件路径和line_length= 最小行长度，在您的情况下6；最大行长度限制为1000000每行字符数；您可以通过更改的值来更改这一点MAX_BUFFER_SIZE）。

\n（用\0找到的替代技巧这里。

与针对该问题提出的所有其他解决方案（除 shell 解决方案外）进行比较（在一个约 91MB 的文件上进行测试，该文件有 10M 行，平均长度为 8 个字符）：

time ./foo file 6

real    0m1.592s
user    0m0.712s
sys 0m0.160s

time grep ...... file

real    0m1.945s
user    0m0.912s
sys 0m0.176s

time grep -E '^.{6,}$'

real    0m2.178s
user    0m1.124s
sys 0m0.152s

time awk 'length>=6' file

real    0m2.261s
user    0m1.228s
sys 0m0.160s

time perl -lne 'length>=6&&print' file

real    0m4.252s
user    0m3.220s
sys 0m0.164s

sed -r '/^.{,5}$/d' file >out

real    0m7.947s
user    0m7.064s
sys 0m0.120s

./script.py >out
real    0m8.154s
user    0m7.184s
sys 0m0.164s

解决方案＃2：使用 AWK：

awk 'length>=6' file

length>=6：如果length>=6返回 TRUE，则打印当前记录。

解决方案 #3：使用 Perl：

perl -lne 'length>=6&&print' file

如果lenght>=6返回 TRUE，则打印当前记录。

% cat file
a
bb
ccc
dddd
eeeee
ffffff
ggggggg
% ./foo file 6
ffffff
ggggggg
% awk 'length>=6' file   
ffffff
ggggggg
% perl -lne 'length>=6&&print' file
ffffff
ggggggg

Answer

解决方案 #1：使用 C

最快的方法：编译并运行这个 C 程序：

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define MAX_BUFFER_SIZE 1000000

int main(int argc, char *argv[]) {
    int length;

    if(argc == 3)
        length = atoi(argv[2]);
    else
        return 1;

    FILE *file = fopen(argv[1], "r");

    if(file != NULL) {
        char line[MAX_BUFFER_SIZE];

        while(fgets(line, sizeof line, file) != NULL) {
            char *pos;

            if((pos = strchr(line, '\n')) != NULL)
                *pos = '\0';
            if(strlen(line) >= length)
                printf("%s\n", line);
        }

        fclose(file);
    }
    else {
        perror(argv[1]);
        return 1;
    }
    
    return 0;
}

使用进行编译gcc program.c -o program，使用运行./program file line_length（其中file= 文件路径和line_length= 最小行长度，在您的情况下6；最大行长度限制为1000000每行字符数；您可以通过更改的值来更改这一点MAX_BUFFER_SIZE）。

\n（用\0找到的替代技巧这里。

与针对该问题提出的所有其他解决方案（除 shell 解决方案外）进行比较（在一个约 91MB 的文件上进行测试，该文件有 10M 行，平均长度为 8 个字符）：

time ./foo file 6

real    0m1.592s
user    0m0.712s
sys 0m0.160s

time grep ...... file

real    0m1.945s
user    0m0.912s
sys 0m0.176s

time grep -E '^.{6,}$'

real    0m2.178s
user    0m1.124s
sys 0m0.152s

time awk 'length>=6' file

real    0m2.261s
user    0m1.228s
sys 0m0.160s

time perl -lne 'length>=6&&print' file

real    0m4.252s
user    0m3.220s
sys 0m0.164s

sed -r '/^.{,5}$/d' file >out

real    0m7.947s
user    0m7.064s
sys 0m0.120s

./script.py >out
real    0m8.154s
user    0m7.184s
sys 0m0.164s

解决方案＃2：使用 AWK：

awk 'length>=6' file

length>=6：如果length>=6返回 TRUE，则打印当前记录。

解决方案 #3：使用 Perl：

perl -lne 'length>=6&&print' file

如果lenght>=6返回 TRUE，则打印当前记录。

% cat file
a
bb
ccc
dddd
eeeee
ffffff
ggggggg
% ./foo file 6
ffffff
ggggggg
% awk 'length>=6' file   
ffffff
ggggggg
% perl -lne 'length>=6&&print' file
ffffff
ggggggg

Question 4

Ruby 解决方案：

$ cat input.txt                                                                                                          
abcdef
abc
abcdefghijk

$ ruby -ne 'puts $_ if $_.chomp.length() >= 6 ' < input.txt                                                              
abcdef
abcdefghijk

简单的想法：将文件重定向到 ruby 的标准输入，并且仅当其长度大于或等于 6 时才从标准输入打印行

Answer

Ruby 解决方案：

$ cat input.txt                                                                                                          
abcdef
abc
abcdefghijk

$ ruby -ne 'puts $_ if $_.chomp.length() >= 6 ' < input.txt                                                              
abcdef
abcdefghijk

简单的想法：将文件重定向到 ruby 的标准输入，并且仅当其长度大于或等于 6 时才从标准输入打印行

如何删除文件中少于 6 个字符的所有行？

答案1

答案2

答案3

解决方案 #1：使用 C

解决方案＃2：使用 AWK：

解决方案 #3：使用 Perl：

答案4

相关内容