用于大型数据集的Linux命令行？

Question 1

既然你说过“寻求关于如何解决这个问题的一般建议吗？”以下是一种方法：

如果你知道如何使用 Python，你可以将文件保存为逗号分隔的文件，然后只需编写一小段代码即可运行该文件脚本然后使用csv对数据进行一些操作。您可以使用任何支持 Python 的操作系统。

Answer

既然你说过“寻求关于如何解决这个问题的一般建议吗？”以下是一种方法：

如果你知道如何使用 Python，你可以将文件保存为逗号分隔的文件，然后只需编写一小段代码即可运行该文件脚本然后使用csv对数据进行一些操作。您可以使用任何支持 Python 的操作系统。

Question 2

我没有太多的一般性建议。具体来说，我建议您使用这个 awk 命令：

awk '{
        over=0
        for (i=1; i<=NF; i++) if ($i > 199) over=1
        if (over) print
     }'

根据您文件中的数字以及我自己编写的一些数字，我创建了一个小型数据文件：

$ cat input
81      23      40
31      0       416     12
2       2       1
157     41      80      201
417     42      17

$ ./myscript input
31      0       416     12
157     41      80      201
417     42      17

到删除从文件中的行开始，执行

$ ./myscript input > input.new
$ mv input.new input

笔记：

为了你自己的利益，你应该决定你的要求是> 199，> 200，≥ 200，还是什么。
如果需要保留第 1 行（即第 1 行，标题行），请这样说。
我还没有在大型文件上测试过。 awk对于大量的行（行数）应该不会有任何问题。一千列（字段）可能是一个问题，但我对此表示怀疑。

Answer

我没有太多的一般性建议。具体来说，我建议您使用这个 awk 命令：

awk '{
        over=0
        for (i=1; i<=NF; i++) if ($i > 199) over=1
        if (over) print
     }'

根据您文件中的数字以及我自己编写的一些数字，我创建了一个小型数据文件：

$ cat input
81      23      40
31      0       416     12
2       2       1
157     41      80      201
417     42      17

$ ./myscript input
31      0       416     12
157     41      80      201
417     42      17

到删除从文件中的行开始，执行

$ ./myscript input > input.new
$ mv input.new input

笔记：

为了你自己的利益，你应该决定你的要求是> 199，> 200，≥ 200，还是什么。
如果需要保留第 1 行（即第 1 行，标题行），请这样说。
我还没有在大型文件上测试过。 awk对于大量的行（行数）应该不会有任何问题。一千列（字段）可能是一个问题，但我对此表示怀疑。

用于大型数据集的Linux命令行？

答案1

答案2

相关内容