适用于 Windows 的命令行 HTTP 爬虫？

2024-6-12 • tag-icon

可能重复：
如何下载整个网站

有人能推荐一个可以从命令行调用并配备设置的网站爬虫吗？

这需要在 Windows 环境中运行。

保存数据、跟踪样式表链接等都不是问题。我只需要爬虫程序从某个页面开始，解析它，然后跟踪同一域上的所有链接，这样最终网站上的所有页面都已被请求一次。

背景：我正在建立一个网站，该网站经常从办公室上传。该网站结合了来自各种来源的数据，具有多个级别的缓存。我不希望新上传后第一个访问该网站的用户必须等到页面生成并保存在缓存中。

wget --mirror

相关内容