awk

Question 1

awk具有比更广泛的功能集sed和更灵活的语法。因此，解析脚本和执行脚本需要更长的时间，这并非不合理。

由于您的示例命令（大括号内的部分）永远不会运行，因此时间敏感部分应该是您的测试表达式。

awk

首先看awk例子中的测试：

NR==100001

gprof并查看（GNU awk 4.0.1）中的效果：

  % 累计自我总计
 时间 秒 秒 呼叫 s/呼叫 s/呼叫名称
 55.89 19.73 19.73 1 19.73 35.04 解释
  8.90 22.87 3.14 500000000 0.00 0.00 cmp_标量
  8.64 25.92 3.05 1000305023 0.00 0.00 自由_wstr
  8.61 28.96 3.04 500105014 0.00 0.00 mk_number
  6.09 31.11 2.15 500000001 0.00 0.00 cmp_nodes
  4.18 32.59 1.48 500200013 0.00 0.00 未参考
  3.68 33.89 1.30 500000000 0.00 0.00 评估条件
  2.21 34.67 0.78 500000000 0.00 0.00 update_NR

大约 50% 的时间花在“解释”上，即运行解析脚本产生的操作码的顶级循环。

每次运行测试时（即 5000 个脚本行 * 100000 个输入行），awk必须：

获取内置变量“NR”( update_NR)。
转换字符串“100001”( mk_number)。
比较它们 ( cmp_nodes, cmp_scalar, eval_condition)。
丢弃比较所需的任何临时对象 ( free_wstr, unref)

其他awk实现不会有完全相同的调用流程，但它们仍然必须检索变量，自动转换，然后进行比较。

sed

相比之下，在中sed，“测试”要有限得多。它只能是单个地址、地址范围或什么都不是（当该命令是该行的第一件事时），并且sed可以从第一个特点无论是地址还是命令。在示例中，它是

...单个数字地址。配置文件（GNU sed 4.2.2）显示

  % 累计自我总计
 时间 秒 秒 呼叫 s/呼叫 s/呼叫名称
 52.01 2.98 2.98 100000 0.00 0.00 执行程序
 44.16 5.51 2.53 1000000000 0.00 0.00 匹配地址_p
  3.84 5.73 0.22 匹配地址
[...]
  0.00 5.73 0.00 5000 0.00 0.00 整数

同样，~50% 的时间位于顶层execute_program。在这种情况下，每个输入行调用一次，然后循环遍历已解析的命令。循环从地址检查开始，但这并不是您的示例中的全部内容（请参阅下文）。

输入脚本中的行号在编译时被解析 ( in_integer)。对于输入中的每个地址编号只需执行一次，即。 5000次，对整体运行时间没有太大贡献。

这意味着地址检查match_address_p仅比较已经可用的整数（通过结构和指针）。

进一步`sed`改进

配置文件显示被match_address_p调用2*5000*100000次，即。两次每个脚本行*输入行。这是因为，GNU 在幕后sed处理“开始块”命令

100001{...}

作为到块末尾的否定分支

100001!b end; ... :end

该地址匹配成功在每个输入行上，导致分支到块的末尾 ( })。该块末端没有关联的地址，因此这是另一个成功的匹配。这就解释了为什么要花这么多时间execute_program。

因此，sed如果省略未使用的内容;b以及由此产生的不必要的内容{...}，只留下100001p.

  % 累计自我总计           
 时间 秒 秒 呼叫 s/呼叫 s/呼叫名称    
 71.43 1.40 1.40 500000000 0.00 0.00 匹配地址
 24.49 1.88 0.48 100000 0.00 0.00 执行程序
  4.08 1.96 0.08 匹配地址

这使得调用次数减半match_address_p，并且还减少了花费的大部分时间execute_program（因为地址匹配永远不会成功）。

Answer

awk具有比更广泛的功能集sed和更灵活的语法。因此，解析脚本和执行脚本需要更长的时间，这并非不合理。

由于您的示例命令（大括号内的部分）永远不会运行，因此时间敏感部分应该是您的测试表达式。

awk

首先看awk例子中的测试：

NR==100001

gprof并查看（GNU awk 4.0.1）中的效果：

  % 累计自我总计
 时间 秒 秒 呼叫 s/呼叫 s/呼叫名称
 55.89 19.73 19.73 1 19.73 35.04 解释
  8.90 22.87 3.14 500000000 0.00 0.00 cmp_标量
  8.64 25.92 3.05 1000305023 0.00 0.00 自由_wstr
  8.61 28.96 3.04 500105014 0.00 0.00 mk_number
  6.09 31.11 2.15 500000001 0.00 0.00 cmp_nodes
  4.18 32.59 1.48 500200013 0.00 0.00 未参考
  3.68 33.89 1.30 500000000 0.00 0.00 评估条件
  2.21 34.67 0.78 500000000 0.00 0.00 update_NR

大约 50% 的时间花在“解释”上，即运行解析脚本产生的操作码的顶级循环。

每次运行测试时（即 5000 个脚本行 * 100000 个输入行），awk必须：

获取内置变量“NR”( update_NR)。
转换字符串“100001”( mk_number)。
比较它们 ( cmp_nodes, cmp_scalar, eval_condition)。
丢弃比较所需的任何临时对象 ( free_wstr, unref)

其他awk实现不会有完全相同的调用流程，但它们仍然必须检索变量，自动转换，然后进行比较。

sed

相比之下，在中sed，“测试”要有限得多。它只能是单个地址、地址范围或什么都不是（当该命令是该行的第一件事时），并且sed可以从第一个特点无论是地址还是命令。在示例中，它是

...单个数字地址。配置文件（GNU sed 4.2.2）显示

  % 累计自我总计
 时间 秒 秒 呼叫 s/呼叫 s/呼叫名称
 52.01 2.98 2.98 100000 0.00 0.00 执行程序
 44.16 5.51 2.53 1000000000 0.00 0.00 匹配地址_p
  3.84 5.73 0.22 匹配地址
[...]
  0.00 5.73 0.00 5000 0.00 0.00 整数

同样，~50% 的时间位于顶层execute_program。在这种情况下，每个输入行调用一次，然后循环遍历已解析的命令。循环从地址检查开始，但这并不是您的示例中的全部内容（请参阅下文）。

输入脚本中的行号在编译时被解析 ( in_integer)。对于输入中的每个地址编号只需执行一次，即。 5000次，对整体运行时间没有太大贡献。

这意味着地址检查match_address_p仅比较已经可用的整数（通过结构和指针）。

进一步`sed`改进

配置文件显示被match_address_p调用2*5000*100000次，即。两次每个脚本行*输入行。这是因为，GNU 在幕后sed处理“开始块”命令

100001{...}

作为到块末尾的否定分支

100001!b end; ... :end

该地址匹配成功在每个输入行上，导致分支到块的末尾 ( })。该块末端没有关联的地址，因此这是另一个成功的匹配。这就解释了为什么要花这么多时间execute_program。

因此，sed如果省略未使用的内容;b以及由此产生的不必要的内容{...}，只留下100001p.

  % 累计自我总计           
 时间 秒 秒 呼叫 s/呼叫 s/呼叫名称    
 71.43 1.40 1.40 500000000 0.00 0.00 匹配地址
 24.49 1.88 0.48 100000 0.00 0.00 执行程序
  4.08 1.96 0.08 匹配地址

这使得调用次数减半match_address_p，并且还减少了花费的大部分时间execute_program（因为地址匹配永远不会成功）。

Question 2

实际上上面的脚本对于 awk 来说并不是 noop：

即使您不使用字段的内容，根据GAWK手册对于读取的每条记录，不可避免地要执行以下步骤：

扫描所有出现的 FS
场分裂
更新 NF 变量

如果您不使用此信息，它就会被丢弃。

如果记录中没有出现字段分隔符，awk 仍然必须将文本分配给 $0（在您的情况下也分配给 $1），并将 NF 设置为获取的字段的实际数量（上面示例中的 1）

Answer

实际上上面的脚本对于 awk 来说并不是 noop：

即使您不使用字段的内容，根据GAWK手册对于读取的每条记录，不可避免地要执行以下步骤：

扫描所有出现的 FS
场分裂
更新 NF 变量

如果您不使用此信息，它就会被丢弃。

如果记录中没有出现字段分隔符，awk 仍然必须将文本分配给 $0（在您的情况下也分配给 $1），并将 NF 设置为获取的字段的实际数量（上面示例中的 1）

awk

答案1

awk

sed

进一步`sed`改进

答案2

相关内容

答案1

awk

sed

进一步sed改进

答案2

相关内容

进一步`sed`改进