添加/附加到大文件的快速方法

Question 1

一些想法：
1.- 不要在每一行重复调用 cut，而是利用 read。
切入的变量列表' '是：

projectName 1
filepath 2
numbers 3
lang 9
cloneID 10
cloneSubID 11
minToken 12
stride 13
similarity 14

这可以直接通过阅读来完成：

while read -r projectName filepath numbers a a a a a lang cloneID cloneSubID minToken stride similarity;

生产线更长，但处理时间更短。变量a只是为了填充未使用值的空间。

2.- 重新处理要除以 ':' 的变量数字可以这样完成（您的问题标记为 bash）：

IFS=':' read -r a linestart length <<<"$numbers"

这使得代码简化为：

while read -r projectName filepath numbers a a a a a lang cloneID cloneSubID minToken stride similarity;
do
    IFS=':' read -r a linestart length <<<"$numbers"

    currentLine=$linestart
    endLine=$((linestart + length))

    while [ $currentLine -lt $endLine ]; do
        echo "$projectName, $filepath, $lang, $linestart, $currentLine, $cloneID, $cloneSubID, $minToken, $stride, $similarity"
        currentLine=$((currentLine + 1))
    done
done < $filename >>$outputfile

3.- 至于第二个脚本，没有描述变量 sub1 和/或 sub2 是什么。

4.- 一般来说，如果您可以将一个脚本拆分为一系列较小的脚本，那么您可以对每个脚本进行计时，以找出耗时的区域。

5.-并且，正如其他一些答案所建议的那样，将文件（以及所有中间结果）放置在内存分区中将使读取第一个文件时的速度更快。脚本的后续执行将从内存中的缓存中读取，隐藏任何改进。本指南应该有帮助。

Answer

一些想法：
1.- 不要在每一行重复调用 cut，而是利用 read。
切入的变量列表' '是：

projectName 1
filepath 2
numbers 3
lang 9
cloneID 10
cloneSubID 11
minToken 12
stride 13
similarity 14

这可以直接通过阅读来完成：

while read -r projectName filepath numbers a a a a a lang cloneID cloneSubID minToken stride similarity;

生产线更长，但处理时间更短。变量a只是为了填充未使用值的空间。

2.- 重新处理要除以 ':' 的变量数字可以这样完成（您的问题标记为 bash）：

IFS=':' read -r a linestart length <<<"$numbers"

这使得代码简化为：

while read -r projectName filepath numbers a a a a a lang cloneID cloneSubID minToken stride similarity;
do
    IFS=':' read -r a linestart length <<<"$numbers"

    currentLine=$linestart
    endLine=$((linestart + length))

    while [ $currentLine -lt $endLine ]; do
        echo "$projectName, $filepath, $lang, $linestart, $currentLine, $cloneID, $cloneSubID, $minToken, $stride, $similarity"
        currentLine=$((currentLine + 1))
    done
done < $filename >>$outputfile

3.- 至于第二个脚本，没有描述变量 sub1 和/或 sub2 是什么。

4.- 一般来说，如果您可以将一个脚本拆分为一系列较小的脚本，那么您可以对每个脚本进行计时，以找出耗时的区域。

5.-并且，正如其他一些答案所建议的那样，将文件（以及所有中间结果）放置在内存分区中将使读取第一个文件时的速度更快。脚本的后续执行将从内存中的缓存中读取，隐藏任何改进。本指南应该有帮助。

Question 2

您是否尝试过将文件放入 /dev/shm，这是一个内存驻留的文件系统。它将提高您对文件的读取和写入的访问速度。最后，您可以将文件从 shm 复制到永久磁盘分区。

Answer

您是否尝试过将文件放入 /dev/shm，这是一个内存驻留的文件系统。它将提高您对文件的读取和写入的访问速度。最后，您可以将文件从 shm 复制到永久磁盘分区。

Question 3

一这里的问题是你这样做：

while : loop
do    : processing
      echo "$results" >>output
done  <input

这将导致每次迭代的执行时间急剧增加，因为outputopen()以比上次稍大的偏移量重复 ** ed。我说细致地因为有几乎在较早的偏移量处打开一个文件与在较晚的偏移量处打开文件所需的时间没有区别，但有一些。而每次你open() O_APPEND你这样做的位置比 ypu 上次的位置稍远。这需要多长时间取决于磁盘配置/底层文件系统，但我认为假设会有一些每次发生的成本，并且随着文件大小的增加，它也会在一定程度上增加。

你可能应该做的只是其中之一open()并维持write()循环生命周期的描述符。你可能会做这样的事情：

while : loop
do    : processing
      echo "$results"
done  <input >>output

这可能不是主要原因。对我来说，这是最明显的原因，可能与增加迭代直接相关，但循环中发生了很多可能不应该发生的事情。您几乎绝对不应该在每个循环迭代中进行 10 次或更多子壳数据评估。最佳实践是执行其中零个 - 通常，如果您无法有效地构建一个独立的 shell 循环，使其可以在没有 fork 的情况下从头到尾完全执行，那么您可能不应该执行此操作根本不。

相反，您应该使用可以通过在这里切片和那里切片来管理评估的工具来集中评估连续剧- 这就是编写良好的管道应该如何工作 - 而不是在每次循环迭代中抓取许多死循环。试着这样想：

input |
(Single app single loop) |
(Single app single loop) |
(Single app single loop) |
output

这是一个管道，其中每个单个循环与其前面的循环同时执行。

但你宁愿：

input |
(Single app \
        (input slice|single app single loop);
        (input slice|single app single loop);
        (input slice|single app single loop);
 single loop) |
 output

这就是依赖子 shell 的 shell 循环的工作原理。这无论如何都不是有效的，并且输入和输出可能也没有缓冲也没有帮助。

子 shell 并不是邪恶的 - 它们是包含求值上下文的便捷方法。但几乎总是最好在任何类型的循环之前或之后应用它们，因为这是为了更好地准备或条件输入或输出所必需的适合更有效的循环。不要在循环中执行这些操作，而是先花时间正确设置它们，然后一旦开始就不要再执行其他操作。

Answer