提高明文文件读取的性能

Question 1

Linux 内核自动进行缓存管理。加载到 RAM 中的所有内容都会保留在那里，直到另一个进程需要 RAM 并且没有更多可用的内存为止。所以在linux内核中RAM应该始终是满的。您的系统有 128GB RAM，对于 100-1000MB 的文件来说绰绰有余。

要将一个大文件加载到 RAM 中只需cat：

cat huge_file > /dev/null 2>&1

所有输出都发送到/dev/null，但为此它必须通过系统 RAM。执行此操作时，您可以观察如何Cached增加/proc/meminfo。

结束后cat，执行 Ruby 应用程序。 Ruby 应用程序现在读取大文件的缓存版本。

Answer

Linux 内核自动进行缓存管理。加载到 RAM 中的所有内容都会保留在那里，直到另一个进程需要 RAM 并且没有更多可用的内存为止。所以在linux内核中RAM应该始终是满的。您的系统有 128GB RAM，对于 100-1000MB 的文件来说绰绰有余。

要将一个大文件加载到 RAM 中只需cat：

cat huge_file > /dev/null 2>&1

所有输出都发送到/dev/null，但为此它必须通过系统 RAM。执行此操作时，您可以观察如何Cached增加/proc/meminfo。

结束后cat，执行 Ruby 应用程序。 Ruby 应用程序现在读取大文件的缓存版本。

Question 2

用于dd读取文件的一部分而不读取其前面的所有内容。对于您的示例（读取字节 4,120,000-4,120,400），您可以使用

dd bs=400 跳过=10300 计数=1 如果=你的输入文件  的=你的输出文件

这定义了 400 字节的逻辑块大小，然后告诉dd跳过输入文件 ( if) 的前 10300 个“逻辑块”。 10300 是 4,120,000 ÷ 400。然后它读取count=1400 字节的一个块 ( ) 并将其写入输出文件 ( of)。如果省略规范of， dd将写入标准输出，以便您可以通过管道将其传输到某些内容。

如果起点（偏移量）不能保证是块大小的整数倍（或者即使是），您可以做更棘手的事情，例如

（dd bs=10000 跳过=412 计数=0；dd bs=400 计数=1 of=你的输出文件) <你的输入文件

或者

（dd bs=4120000 跳过=1 计数=0；dd bs=400 计数=1 of=你的输出文件) <你的输入文件

在哪里

同样，您可以省略of规范，这将写入标准输出。
如果您dd在没有if指定的情况下运行，它将从标准输入中读取。整个命令组的标准输入(dd …; dd …)来自于末尾。< your_input_file
第一个dd命令不会读取或写入任何数据，因为count=0;它只是寻求。
由于这两个dd命令从相同的 I/O 重定向获取标准输入，因此第一个命令完成的查找将影响第二个命令看到的文件指针。

Answer

用于dd读取文件的一部分而不读取其前面的所有内容。对于您的示例（读取字节 4,120,000-4,120,400），您可以使用

dd bs=400 跳过=10300 计数=1 如果=你的输入文件  的=你的输出文件

这定义了 400 字节的逻辑块大小，然后告诉dd跳过输入文件 ( if) 的前 10300 个“逻辑块”。 10300 是 4,120,000 ÷ 400。然后它读取count=1400 字节的一个块 ( ) 并将其写入输出文件 ( of)。如果省略规范of， dd将写入标准输出，以便您可以通过管道将其传输到某些内容。

如果起点（偏移量）不能保证是块大小的整数倍（或者即使是），您可以做更棘手的事情，例如

（dd bs=10000 跳过=412 计数=0；dd bs=400 计数=1 of=你的输出文件) <你的输入文件

或者

（dd bs=4120000 跳过=1 计数=0；dd bs=400 计数=1 of=你的输出文件) <你的输入文件

在哪里

同样，您可以省略of规范，这将写入标准输出。
如果您dd在没有if指定的情况下运行，它将从标准输入中读取。整个命令组的标准输入(dd …; dd …)来自于末尾。< your_input_file
第一个dd命令不会读取或写入任何数据，因为count=0;它只是寻求。
由于这两个dd命令从相同的 I/O 重定向获取标准输入，因此第一个命令完成的查找将影响第二个命令看到的文件指针。

提高明文文件读取的性能

答案1

答案2

相关内容