如何在大型文本文件中使用 grep/sed 获取日期范围内的文本？

Question 1

如果grep你知道你想要的行数，你可以使用上下文选项-A来打印模式后的行

grep -A 3 2016-07-13 file

这将为您提供 2013-07-13 行以及接下来的 3 行

你sed可以用日期来划定这样的界限

sed -n '/2016-07-13/,/2016-07-19/p' file

这将打印从第一行 2016-07-13 到第一行 2016-07-19 的所有行。但这假设您只有一行 2016-07-19（它不会打印下一行）。如果有多行，请使用下一个日期，并使用d从中删除输出

sed -n '/2016-07-13/,/2016-07-20/{/2016-07-20/d; p}' file

Answer

如果grep你知道你想要的行数，你可以使用上下文选项-A来打印模式后的行

grep -A 3 2016-07-13 file

这将为您提供 2013-07-13 行以及接下来的 3 行

你sed可以用日期来划定这样的界限

sed -n '/2016-07-13/,/2016-07-19/p' file

这将打印从第一行 2016-07-13 到第一行 2016-07-19 的所有行。但这假设您只有一行 2016-07-19（它不会打印下一行）。如果有多行，请使用下一个日期，并使用d从中删除输出

sed -n '/2016-07-13/,/2016-07-20/{/2016-07-20/d; p}' file

Question 2

这个简单的 grep 单行命令就足够了：

grep -E ^2016-07-1[3-9] filename

这里运行良好，不需要 sed :)

参考：

使用正则表达式匹配数字范围

Answer

这个简单的 grep 单行命令就足够了：

grep -E ^2016-07-1[3-9] filename

这里运行良好，不需要 sed :)

参考：

使用正则表达式匹配数字范围

Question 3

所有其他当前答案都依赖于日志文件条目按时间顺序排序的事实或日期范围可以轻松与正则表达式匹配的事实。如果您想要更通用的解决方案，我们需要进行更多编程。

我介绍这个 GNU AWK 脚本：

#!/usr/bin/gawk -f
BEGIN {
    starttime = mktime(starttime)
    endtime = mktime(endtime)
}

func in_range(n, start, end) {
    return start <= n && n < end
}

match($0, /^([0-9]{4})-([0-9]{2})-([0-9]{2})\s/, m) &&
    in_range(mktime(m[1] " " m[2] " " m[3] " 00 00 00"), starttime, endtime)

您通过变量提供开始和结束时间starttime，endtime格式如下：mktime理解（YYYY MM DD hh dd ss）。因此，您可以awk像这样运行命令，假设上述 Awk 脚本位于filter-log-dates.awk当前工作目录中的可执行文件中，并且日志文件为mylog.txt：

./filter-log-dates.awk -v starttime='2016 07 13 00 00 00' -v endtime='2016 07 20 00 00 00' mylog.txt

请注意结束时间是独家的即有效的日志记录必须有时间戳前结束时间。

如果您的时间戳格式不同，您可以调整传递给match函数的正则表达式以适应它。

Answer