如何从 HTML 文件中提取特定 URL

Question

一个简单的 grep 应该可以为您完成此操作：

grep -o "https://sitename.com/.+/ending" somefile.html

（注意：我现在面前没有 *nix 机器来测试这个。）

编辑：启动我的 Linux 盒子并发现它可以工作：

grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html

A.+会变得贪婪并且捕获太多。使用否定断言将正确找到子目录的结尾。请注意，这不会找到嵌套子目录，例如https://sitename.com/sub/directory/ending.

Answer 1

一个简单的 grep 应该可以为您完成此操作：

grep -o "https://sitename.com/.+/ending" somefile.html

（注意：我现在面前没有 *nix 机器来测试这个。）

编辑：启动我的 Linux 盒子并发现它可以工作：

grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html

A.+会变得贪婪并且捕获太多。使用否定断言将正确找到子目录的结尾。请注意，这不会找到嵌套子目录，例如https://sitename.com/sub/directory/ending.

相关内容