如何使用 wget 或其他方式下载完整的论坛网站

如何使用 wget 或其他方式下载完整的论坛网站

我知道这是一个老问题,我尝试了几种方法,但都没有成功。如果我有时间,我可能可以解决这个问题,但我很着急,因为论坛很快就要关闭了。问题:我试图下载一个论坛,它需要我的用户名和密码。

我试过 httrack 但没有成功,所以我想试试 wget。如果可以的话请帮忙,因为我很着急,而且那里面有太多的信息,如果没有人下载的话,这些信息就会消失。

我已经尝试过这个wget命令

wget \ > --recursive \ > --no-clobber \ > --page-requisites \ > --html-extension \ > --convert-links \ > --restrict-file-names=windows \ > --domains website.org \ > --no-parent \ > wald-electronics.freeforums.net

这确实下载了一些帖子,但实际上并不是全部。
我也尝试了很多不同的命令,但都无济于事。

答案1

首先:--domains website.org不属于此处。删除它。或者输入正确的域名(注意:这可能包括子域名(如果有))。

接下来,请注意,许多网站都会屏蔽机器人。因此,您可能想要更改用户代理伪装成真正的浏览器,尽管这可以毫无问题地工作。尽量温和一点,在页面下载之间添加一些暂停。服务器可以检测到非人类活动 - 即高速浏览而不暂停 - 并通过阻止或限制做出响应。

此网站可能还需要登录这样您就可以正确地索引内容。您可能需要弄清楚如何将凭据传递给wget我们的浏览器 cookie 或重用其中的令牌。

你走在正确的道路上,但阅读wget 手册可能会很有益,这样您就可以概览可用于微调命令的选项。

如果您遇到太多麻烦,也许有一个专门用于此目的的浏览器插件。

相关内容