如何使用正则表达式从充满垃圾的目录中提取 URL？

Question 1

grep -oP "https:\/\/foo\.domain\.com\/[A-z]+\w+\.pdf" | wget -i -

Answer

grep -oP "https:\/\/foo\.domain\.com\/[A-z]+\w+\.pdf" | wget -i -

Question 2

默认情况下，grep区分大小写，因此你必须以字符结束任何范围下列的范围开始。

我怀疑你想写第三个（意味着所有匹配的 URL 都以小写开头）

该模式可能在不同的环境中起作用，因为该模式被配置为不区分大小写地匹配，或者更可能地，采用了不同的排序顺序（尝试LC_COLLATE=C grep 'A-z'）。

Answer

默认情况下，grep区分大小写，因此你必须以字符结束任何范围下列的范围开始。

我怀疑你想写第三个（意味着所有匹配的 URL 都以小写开头）

该模式可能在不同的环境中起作用，因为该模式被配置为不区分大小写地匹配，或者更可能地，采用了不同的排序顺序（尝试LC_COLLATE=C grep 'A-z'）。

相关内容