在大量特定范围的 json 文件中搜索“created_at”：下一行接着搜索“retweeted”：

Question

回答你的第一个问题：该表达式2(1:[0-5][0-9]:[0-5][0-9]|2:([0-2][0-9]:[0-5][0-9]|30:00))只是一个正则表达式，匹配以 , 开头的字符串2，后跟任何一个，其中1:AB:CDA 和 C 是 0-5 之间的数字，B 和 D 是 0-9 之间的数字，或者，其中2:AB:CDA 是 0-2 之间的数字，C 是 0-5 之间的数字，B 和 D 是 0-9 之间的数字，或者用2:30:00。这是匹配21:00:00和之间22:30:00（包括和）所有时间的非常粗略的方法。编写这样的正则表达式来匹配某个任意起点和终点之间的日期或时间将是一项非常繁琐的工作。

您的 JSON 文件的链接不再有效，但我会尝试根据您提供的信息回答您的主要问题。顺便说一句，您的原始grep命令有点矛盾，因为您给出了选项-n（打印行号）和-c（仅打印匹配的行数），它们是互斥的。所以我不确定您想要提取什么信息（行号或计数）。

以下命令将提取包含单词和的所有行created_at，这些行位于包含单词的行之前retweeted：

grep -rn -B1 'retweeted' * | grep 'created_at'

思路是第一个 grep 打印匹配的每一行retweeted以及它之前的行。第二个 grep 过滤掉包含的行created_at。

现在，您将获得所有日期及其行号的列表。过滤日期范围比较困难；如果您很少需要这样做，则可以使用正则表达式

grep -E '(July (1[7-9]|[23].)|August .*|September .*|October .*|November [1-8]), 2016'

适合您的特定日期范围（但范围越复杂，此方法越难）。

Answer 1