构建数组

Question

您的脚本中有一些部分看起来很浪费，可以以效率的名义重新安排：

构建数组

grep 'Errorcode' logfile >> ./grablog
NumOfErrors=$(grep -c 'Errorcode' grablog)

AllPrimaryReferences=($(sed -r 's/^.*(<Referencetag>)([^<]*)(<\/Referencetag>).*$/\2/g' grablog))

您稍后使用“NumOfErrors”作为结束条件，并使用+=2, while 循环遍历数组。您可以直接通过访问数组的长度${#arrayname[@]}。

这意味着您只需读取grablog一次，或者更好的是，可以从管道中读取，从而消除临时文件：

AllPrimaryReferences=( $(grep 'Errorcode' logfile | sed -r '...' | uniq ) )
NumOfRefs=${#AllPrimaryReferences[@]}

应该uniq删除重复的条目，而不是使用+=2它们来跳过它们。我假设它们总是彼此配对（我无法确认，因为我看不到日志文件）。如果没有，您可以sort在之前添加uniq，但如果条目很多，速度也会很慢。

不过，循环内的脚本部分是应该引起更多关注的地方。

提取变量`sed`

您担心sed每个循环运行两次会很慢。您可以避免这种情况的一些方法是：

合二为一`sed`

您可以通过一个sed命令将整行管道提取到一个数组中，从而将两个变量提取出来吗？

ts_task=( $(echo "$Reference" | sed 's/\(timestamp_regex\).*\(task_regex\)/\1 \2/' ) )
timestamp="${ts_task[0]}"
task="${ts_task[1]}"

使用`bash`替代品

sed也许您根本不需要，并且可以$References从中提取您需要的子字符串参数扩展。例如。提取第一个空格之前的所有内容：

timestamp=${References%% *}

使用命名管道

如果您担心开始 sed是慢一点，你可以在循环开始之前在后台启动它，并使用命名管道与主循环进行通信。这可能会变得很繁琐，因为您需要记住哪些进程挂在读/写状态并将它们置于后台或适当地等待它们。

读取整个输入文件两次，每次循环一次

这可能是最慢的部分，也是最有改进潜力的部分。

从参考中提取详细信息

您在评论中提到，每个引用只有一行blablabla。这意味着第一个grep是查看整个输入文件，并在匹配处停止；然后下一轮，又从头开始寻找下一个。

如果每个引用只有一个这样的行，则整个“构建数组”步骤可能是不必要的，您可以直接输入循环：

grep 'blablablabla = ' logfile | # match each line that defines a primary reference
  sed '...' |                    # command to extract just the timestamp and taskname
  while read ts task ; do        # assign the two required variables

    # use ts and task to extract everything as before

  done

这意味着这两个greps 中的第一个现在位于循环之外，因此它只运行一次。

过滤结果

您将行的子集转储到tempfile，然后grep对结果运行一秒钟。和以前一样，您可以通过将这两个步骤组合到管道中来避免使用临时文件。

grep "$task" logfile | grep "$timestamp" >> output

或者如果您对整行的格式足够了解

grep "$timestamp <match other part of line> $task" logfile >> output

整个算法

即使有了所有这些改进，瓶颈也可能是您重新读取整个日志文件，并针对每个引用/任务再次检查其中的每一行。当所需的行可以以任何顺序出现在日志文件中的任何位置时，这是合适的——这是查找每一行的强力方法，因此需要很长时间。

但你已经暗示结构和上下文（“第一行和最后一行”，“第一个条目”）将允许更智能的方法。如果您对输入文件的结构/顺序了解更多，您可能可以采取进一步的快捷方式来避免重复的工作。

您问如何“保存位置”和“返回到我保存的位置”。 grep -n将报告每场比赛的行号，以及tail(1)命令可以从文件开头跳过多行，但仍然需要重新读取文件才能找到换行符。也许整个文件可以在一个while read循环中处理？

Answer 1

您的脚本中有一些部分看起来很浪费，可以以效率的名义重新安排：

构建数组

grep 'Errorcode' logfile >> ./grablog
NumOfErrors=$(grep -c 'Errorcode' grablog)

AllPrimaryReferences=($(sed -r 's/^.*(<Referencetag>)([^<]*)(<\/Referencetag>).*$/\2/g' grablog))

您稍后使用“NumOfErrors”作为结束条件，并使用+=2, while 循环遍历数组。您可以直接通过访问数组的长度${#arrayname[@]}。

这意味着您只需读取grablog一次，或者更好的是，可以从管道中读取，从而消除临时文件：

AllPrimaryReferences=( $(grep 'Errorcode' logfile | sed -r '...' | uniq ) )
NumOfRefs=${#AllPrimaryReferences[@]}

应该uniq删除重复的条目，而不是使用+=2它们来跳过它们。我假设它们总是彼此配对（我无法确认，因为我看不到日志文件）。如果没有，您可以sort在之前添加uniq，但如果条目很多，速度也会很慢。

不过，循环内的脚本部分是应该引起更多关注的地方。

提取变量`sed`

您担心sed每个循环运行两次会很慢。您可以避免这种情况的一些方法是：

合二为一`sed`

您可以通过一个sed命令将整行管道提取到一个数组中，从而将两个变量提取出来吗？

ts_task=( $(echo "$Reference" | sed 's/\(timestamp_regex\).*\(task_regex\)/\1 \2/' ) )
timestamp="${ts_task[0]}"
task="${ts_task[1]}"

使用`bash`替代品

sed也许您根本不需要，并且可以$References从中提取您需要的子字符串参数扩展。例如。提取第一个空格之前的所有内容：

timestamp=${References%% *}

使用命名管道

如果您担心开始 sed是慢一点，你可以在循环开始之前在后台启动它，并使用命名管道与主循环进行通信。这可能会变得很繁琐，因为您需要记住哪些进程挂在读/写状态并将它们置于后台或适当地等待它们。

读取整个输入文件两次，每次循环一次

这可能是最慢的部分，也是最有改进潜力的部分。

从参考中提取详细信息

您在评论中提到，每个引用只有一行blablabla。这意味着第一个grep是查看整个输入文件，并在匹配处停止；然后下一轮，又从头开始寻找下一个。

如果每个引用只有一个这样的行，则整个“构建数组”步骤可能是不必要的，您可以直接输入循环：

grep 'blablablabla = ' logfile | # match each line that defines a primary reference
  sed '...' |                    # command to extract just the timestamp and taskname
  while read ts task ; do        # assign the two required variables

    # use ts and task to extract everything as before

  done

这意味着这两个greps 中的第一个现在位于循环之外，因此它只运行一次。

过滤结果

您将行的子集转储到tempfile，然后grep对结果运行一秒钟。和以前一样，您可以通过将这两个步骤组合到管道中来避免使用临时文件。

grep "$task" logfile | grep "$timestamp" >> output

或者如果您对整行的格式足够了解

grep "$timestamp <match other part of line> $task" logfile >> output

整个算法

即使有了所有这些改进，瓶颈也可能是您重新读取整个日志文件，并针对每个引用/任务再次检查其中的每一行。当所需的行可以以任何顺序出现在日志文件中的任何位置时，这是合适的——这是查找每一行的强力方法，因此需要很长时间。

但你已经暗示结构和上下文（“第一行和最后一行”，“第一个条目”）将允许更智能的方法。如果您对输入文件的结构/顺序了解更多，您可能可以采取进一步的快捷方式来避免重复的工作。

您问如何“保存位置”和“返回到我保存的位置”。 grep -n将报告每场比赛的行号，以及tail(1)命令可以从文件开头跳过多行，但仍然需要重新读取文件才能找到换行符。也许整个文件可以在一个while read循环中处理？

构建数组

答案1

构建数组

提取变量`sed`

合二为一`sed`

使用`bash`替代品

使用命名管道

读取整个输入文件两次，每次循环一次

从参考中提取详细信息

过滤结果

整个算法

相关内容

答案1

构建数组

提取变量sed

合二为一sed

使用bash替代品

使用命名管道

读取整个输入文件两次，每次循环一次

从参考中提取详细信息

过滤结果

整个算法

相关内容

提取变量`sed`

合二为一`sed`

使用`bash`替代品