我试图了解与sed
和相关的一些性能问题awk
,并且我做了以下实验,
$ seq 100000 > test
$ yes 'NR==100001{print}' | head -n 5000 > test.awk
$ yes '100001{p;b}' | head -n 5000 > test.sed
$ time sed -nf test.sed test
real 0m3.436s
user 0m3.428s
sys 0m0.004s
$ time awk -F@ -f test.awk test
real 0m11.615s
user 0m11.582s
sys 0m0.007s
$ sed --version
sed (GNU sed) 4.5
$ awk --version
GNU Awk 4.2.1, API: 2.0 (GNU MPFR 3.1.6-p2, GNU MP 6.1.2)
test.sed
这里,由于测试文件仅包含 100000 行,因此和中的所有命令test.awk
都是空操作。两个程序只需将行号与地址(in sed
)或NR
(in awk
)进行匹配即可决定该命令不需要执行,但时间成本仍然存在巨大差异。为什么会这样呢?是否有人安装了不同版本sed
并awk
在此测试中给出了不同的结果?
编辑:结果mawk
(如 @mosvy 所建议)original-awk
(基于 debian 的系统中“one true awk”的名称,由 @GregA.Woods 建议)perl
如下所示,
$ time mawk -F@ -f test.awk test
real 0m5.934s
user 0m5.919s
sys 0m0.004s
$ time original-awk -F@ -f test.awk test
real 0m8.132s
user 0m8.128s
sys 0m0.004s
$ yes 'print if $.==100001;' | head -n 5000 > test.pl
$ time perl -n test.pl test
real 0m33.245s
user 0m33.110s
sys 0m0.019s
$ mawk -W version
mawk 1.3.4 20171017
$ perl --version
This is perl 5, version 28, subversion 1 (v5.28.1) built for x86_64-linux-thread-multi
在和的情况下,替换-F@
为-F ''
不会产生明显的变化。不支持空。gawk
mawk
original-awk
FS
编辑2
@mosvy 的测试给出了不同的结果, 21 秒sed
和 11 秒mawk
,详细信息请参阅下面的评论。
答案1
awk
具有比 更广泛的功能集sed
和更灵活的语法。因此,解析脚本和执行脚本需要更长的时间,这并非不合理。
由于您的示例命令(大括号内的部分)永远不会运行,因此时间敏感部分应该是您的测试表达式。
awk
首先看awk
例子中的测试:
NR==100001
gprof
并查看(GNU awk 4.0.1)中的效果:
% 累计自我总计 时间 秒 秒 呼叫 s/呼叫 s/呼叫名称 55.89 19.73 19.73 1 19.73 35.04 解释 8.90 22.87 3.14 500000000 0.00 0.00 cmp_标量 8.64 25.92 3.05 1000305023 0.00 0.00 自由_wstr 8.61 28.96 3.04 500105014 0.00 0.00 mk_number 6.09 31.11 2.15 500000001 0.00 0.00 cmp_nodes 4.18 32.59 1.48 500200013 0.00 0.00 未参考 3.68 33.89 1.30 500000000 0.00 0.00 评估条件 2.21 34.67 0.78 500000000 0.00 0.00 update_NR
大约 50% 的时间花在“解释”上,即运行解析脚本产生的操作码的顶级循环。
每次运行测试时(即 5000 个脚本行 * 100000 个输入行),awk
必须:
- 获取内置变量“NR”(
update_NR
)。 - 转换字符串“100001”(
mk_number
)。 - 比较它们 (
cmp_nodes
,cmp_scalar
,eval_condition
)。 - 丢弃比较所需的任何临时对象 (
free_wstr
,unref
)
其他awk
实现不会有完全相同的调用流程,但它们仍然必须检索变量,自动转换,然后进行比较。
sed
相比之下,在 中sed
,“测试”要有限得多。它只能是单个地址、地址范围或什么都不是(当该命令是该行的第一件事时),并且sed
可以从第一个特点无论是地址还是命令。在示例中,它是
100001
...单个数字地址。配置文件(GNU sed 4.2.2)显示
% 累计自我总计 时间 秒 秒 呼叫 s/呼叫 s/呼叫名称 52.01 2.98 2.98 100000 0.00 0.00 执行程序 44.16 5.51 2.53 1000000000 0.00 0.00 匹配地址_p 3.84 5.73 0.22 匹配地址 [...] 0.00 5.73 0.00 5000 0.00 0.00 整数
同样,~50% 的时间位于顶层execute_program
。在这种情况下,每个输入行调用一次,然后循环遍历已解析的命令。循环从地址检查开始,但这并不是您的示例中的全部内容(请参阅下文)。
输入脚本中的行号在编译时被解析 ( in_integer
)。对于输入中的每个地址编号只需执行一次,即。 5000次,对整体运行时间没有太大贡献。
这意味着地址检查match_address_p
仅比较已经可用的整数(通过结构和指针)。
进一步sed
改进
配置文件显示被match_address_p
调用2*5000*100000次,即。两次每个脚本行*输入行。这是因为,GNU 在幕后sed
处理“开始块”命令
100001{...}
作为到块末尾的否定分支
100001!b end; ... :end
该地址匹配成功在每个输入行上,导致分支到块的末尾 ( }
)。该块末端没有关联的地址,因此这是另一个成功的匹配。这就解释了为什么要花这么多时间execute_program
。
因此,sed
如果省略未使用的内容;b
以及由此产生的不必要的内容{...}
,只留下100001p
.
% 累计自我总计 时间 秒 秒 呼叫 s/呼叫 s/呼叫名称 71.43 1.40 1.40 500000000 0.00 0.00 匹配地址 24.49 1.88 0.48 100000 0.00 0.00 执行程序 4.08 1.96 0.08 匹配地址
这使得调用次数减半match_address_p
,并且还减少了花费的大部分时间execute_program
(因为地址匹配永远不会成功)。
答案2
实际上上面的脚本对于 awk 来说并不是 noop:
即使您不使用字段的内容,根据GAWK手册对于读取的每条记录,不可避免地要执行以下步骤:
- 扫描所有出现的 FS
- 场分裂
- 更新 NF 变量
如果您不使用此信息,它就会被丢弃。
如果记录中没有出现字段分隔符,awk 仍然必须将文本分配给 $0(在您的情况下也分配给 $1),并将 NF 设置为获取的字段的实际数量(上面示例中的 1)