我有一个 HTML 文件,没有任何格式。我想提取表单的 URLhttps://sitename.com/*/ending 且仅限那些 URL。
这样做的最佳方法是什么?
这个问题不是重复的。另一个问题是询问如何提取特定命名 DIV 的内容。这是询问如何提取符合特定格式的 URL 列表。
答案1
一个简单的 grep 应该可以为您完成此操作:
grep -o "https://sitename.com/.+/ending" somefile.html
(注意:我现在面前没有 *nix 机器来测试这个。)
编辑:启动我的 Linux 盒子并发现它可以工作:
grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html
A.+
会变得贪婪并且捕获太多。使用否定断言将正确找到子目录的结尾。请注意,这不会找到嵌套子目录,例如https://sitename.com/sub/directory/ending
.