使用并行进程来加速交互式 bash 循环，但我需要在循环内创建一个关联数组

Question

这里可能慢的地方是，每个文件运行两个jqs，并分叉一个进程并jq 在其中执行，这可能比处理一个小 json 文件要多几个数量级的工作。

read0() { IFS= read -rd '' "$@"; }
add_line() {
  typeset -n _var="$1"
  _var+=${_var:+$'\n'}$2
}
shopt -s extglob failglob lastpipe
set -o pipefail

typeset -A idArr valueArr

jq -j '[input_filename, .fileId, .value] |
       map(gsub("\u0000"; "") + "\u0000") | add
      ' -- +([0123456789]).json |
  while read0 file && read0 id && read0 value; do
    add_line "idArr[$file]"    "$id"
    add_line "valueArr[$file]" "$var"
  done

只会运行jq一次。jq打印文件名、id 和值（如果有的话，去掉它们的 NUL），以 NUL 分隔，bash 在循环中并行读取。

重要的提示：做不是使用任意文件名调用它add_line，因为这将是一个命令注入漏洞，因为typeset -n它有点eval伪装。例如，如果您使用*.json代替+([0123456789]).json，并且有一个名为的文件$(reboot).json，则会重新启动！

在当前版本的 bash 中，可以通过在 , 周围使用单引号而不是双引号来解决这个问题idArr[$file]，valueArr[$file]但这可能不是面向未来的，因为未来版本的 bash 可能会决定不再对 nameref 取消引用进行这些扩展以避免这种漏洞。

或者，您可以通过消除那些设计错误的名称引用并eval显式使用来消除这些漏洞：

add_line() {
  eval "$1+=\${$1:+\$'\\n'}\$2"
}

并确保将其称为：

    add_line 'idArr[$file]'    "$id"
    add_line 'valueArr[$file]' "$var"

然后您就可以使用*.json或"${a[@]}"不需要进行一些消毒。

如果遇到“参数列表太长”错误，请替换jq ... +([0123456789]).json为printf '%s\0' +([0123456789]).json | xargs -r0 jq ....

虽然您可能也想使用 GNU xargs'-P并行运行其中一些jq，但我建议不要这样做，因为它xargs不能保证命令输出的序列化，因此各个jqs 的输出最终可能会交织在一起。 GNUparallel确实如此，但与解析（可能是）短 JSON 文件这样简单的事情相比，它也有很大的开销，因此可能不会增加太多好处。

^{1 好吧，jq视为-标准输入，所以严格来说，如果数组中存在这样命名的文件$a（或 glob 的扩展*而不是*.json），您需要将其转换为./-.}

Answer 1