bash 字符串操作速度与管道

Question 1

是的，使用 bash 内部命令可以避免许多系统调用。尤其是有递归的时候。

另一个例子：我们必须使用 * 来对抗 $(ls)。

Bash 提供了一些对字符串进行简单操作的方法（剪切和替换）。但仅此而已。因为它不是为此而设计的。示例：在没有外部命令的情况下很难验证字符串中模式的存在。

外部程序针对其任务进行了更优化（cat、sed、grep、awk、cut、sort...）

Answer

是的，使用 bash 内部命令可以避免许多系统调用。尤其是有递归的时候。

另一个例子：我们必须使用 * 来对抗 $(ls)。

Bash 提供了一些对字符串进行简单操作的方法（剪切和替换）。但仅此而已。因为它不是为此而设计的。示例：在没有外部命令的情况下很难验证字符串中模式的存在。

外部程序针对其任务进行了更优化（cat、sed、grep、awk、cut、sort...）

Question 2

我通过设置其中一个变量进行测试。执行此脚本两次：

while read line; do
        md5sum=${line%%" "*}
        #md5sum=$(echo $line | awk '{print $1}')
        echo "SUM: $md5sum FILE:_$file"
done < manifest.Stuph.180620

首先与

md5sum=${line%%" "*}

接下来是

md5sum=$(echo $line | awk '{print $1}')

其中文件“manifest.Stuph.180620”的长度为 100939 行（== 约 14MiB），结果如下：

第一次运行（使用 bash 的内置字符串操作）

real    0m4.750s
user    0m4.174s
sys     0m0.550s

第二次运行（使用管道）

real    10m54.255s
user    4m42.257s
sys     7m32.880s

有些人（例如我自己）会说，如果速度很重要，那么您无论如何都不应该在 shell 中乱搞，但有时您可能希望提高效率 - 无论您使用什么环境来完成工作。

请注意，这样做：

while read md5sum filename; do
    (...etc...)

甚至比进行变量赋值更有效，但还没有达到消除命令替换/管道/awk 构造的程度。我发现最有趣的是 bash 内置性能和使用外部命令之间的差异。我会更加勤奋地学习和使用精美的内置东西！

Answer