正则表达式从日志文件中提取文件路径

Question

您的文件路径似乎是按如下方式组织的：

如果您有不同的方法来识别包含文件名的行，这可能更好。如果存在不同模式的文件名，并且您想关注显示的模式，则以下正则表达式应该有效（示例grep在 ERE 模式下使用 GNU）：

grep -E -w -o '([[:digit:]]{2})/(\1[[:digit:]]+)/\2[^[:digit:]][^/]*\.(jpg|tif|zip)' logfile.txt

这使用反向引用（\1和\2）来确保“相同的文本”在字符串中的不同位置匹配。

该字符串需要以两位数字和一个斜杠开头。
然后需要以与开头相同的两位数字继续，后跟一个未指定的数字（如果数字有固定范围，则可以用替换），以及一个+ 斜杠{2,10}
然后，它以与第二个路径元素相同的编号开始，后面跟着一个非数字字符（以确保该数字确实与第二个路径元素相同）以及除/（排除子目录中的文件或防止同一行中存在多个文件路径）之外的任意数量的其他字符，直到最终替代文件扩展名（您可以根据需要调整扩展名的数量）。
该-o选项确保仅返回该行的匹配部分（即文件路径）。该-w选项确保结果仅匹配完整字符串，即不匹配可能较长文件路径的子字符串。这要求文件名不包含空格（这是文件名的有效字符！）。

请注意，严格来说，反向引用是保证仅在基本正则表达式中工作的功能，而替代项仅保证在扩展正则表达式中工作。 GNUgrep扩展正则表达式确实允许反向引用，因此它在这种情况下有效（这可能不是太大的限制）。

Answer 1

您的文件路径似乎是按如下方式组织的：

如果您有不同的方法来识别包含文件名的行，这可能更好。如果存在不同模式的文件名，并且您想关注显示的模式，则以下正则表达式应该有效（示例grep在 ERE 模式下使用 GNU）：

grep -E -w -o '([[:digit:]]{2})/(\1[[:digit:]]+)/\2[^[:digit:]][^/]*\.(jpg|tif|zip)' logfile.txt

这使用反向引用（\1和\2）来确保“相同的文本”在字符串中的不同位置匹配。

该字符串需要以两位数字和一个斜杠开头。
然后需要以与开头相同的两位数字继续，后跟一个未指定的数字（如果数字有固定范围，则可以用替换），以及一个+ 斜杠{2,10}
然后，它以与第二个路径元素相同的编号开始，后面跟着一个非数字字符（以确保该数字确实与第二个路径元素相同）以及除/（排除子目录中的文件或防止同一行中存在多个文件路径）之外的任意数量的其他字符，直到最终替代文件扩展名（您可以根据需要调整扩展名的数量）。
该-o选项确保仅返回该行的匹配部分（即文件路径）。该-w选项确保结果仅匹配完整字符串，即不匹配可能较长文件路径的子字符串。这要求文件名不包含空格（这是文件名的有效字符！）。

请注意，严格来说，反向引用是保证仅在基本正则表达式中工作的功能，而替代项仅保证在扩展正则表达式中工作。 GNUgrep扩展正则表达式确实允许反向引用，因此它在这种情况下有效（这可能不是太大的限制）。

相关内容