wget：从特定网站递归检索 URL

2024-6-13 • tag-icon

我正在尝试从网站递归检索所有可能的 URL（内部页面 URL）。

您能帮我解决 wget 问题吗？或者有没有更好的方法来实现这一点？我不想从网站下载任何内容，只想获取同一域名的 URL。

谢谢！

编辑

我尝试在 wget 中执行此操作，然后稍后 grep outlog.txt 文件。不确定这是否是正确的方法。但是，它有效！

$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'

你也可以使用类似纳奇我只用它来抓取网站的内部链接并将其编入索引solr但根据这个帖子它也可以做外部链接，但根据你想要对结果做什么，它可能有点过度。

相关内容