如何从 HTML 文件中提取特定 URL

如何从 HTML 文件中提取特定 URL

我有一个 HTML 文件,没有任何格式。我想提取表单的 URLhttps://sitename.com/*/ending 且仅限那些 URL。

这样做的最佳方法是什么?

这个问题不是重复的。另一个问题是询问如何提取特定命名 DIV 的内容。这是询问如何提取符合特定格式的 URL 列表。

答案1

一个简单的 grep 应该可以为您完成此操作:

grep -o "https://sitename.com/.+/ending" somefile.html

(注意:我现在面前没有 *nix 机器来测试这个。)

编辑:启动我的 Linux 盒子并发现它可以工作:

grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html

A.+会变得贪婪并且捕获太多。使用否定断言将正确找到子目录的结尾。请注意,这不会找到嵌套子目录,例如https://sitename.com/sub/directory/ending.

相关内容