使用 wget 下载整个网站时出现问题

Question 1

如果您想使用wget，您可以使用镜像设置来制作网站的离线副本，尽管有些网站可能会使用 robots.txt 设置来阻止自动蜘蛛抓取。我一直遇到一些问题wget（请参阅下面的其他建议），但以下命令确实适用于许多网站。但是，意识到的添加开关-H允许它访问其他网站上的所有链接并保存这些链接。如果不需要，显然可以删除此命令开关。

 wget --wait 1 -x -H -mk http://site.to.mirror/

命令允许请求wait之间有一些间隙，wget's这样站点就不会不堪重负，命令-x开关指定站点的目录结构应完全镜像到您的主文件夹中的文件夹中。开关-m显然代表镜像模式，允许wget通过站点进行递归下载；-k开关意味着下载后引用的文件将是您主文件夹中镜像目录中的文件，而不是站点本身的文件。

之后man wget，也许最好的命令列表和详细解释wget是这里。

如果wget失败，并且您无法获取所需的内容，我应该尝试命令行程序httrack或其 Web 界面webhttrack，它们在存储库中可用。这个程序有很多选项，但它比更适合下载整个网站或网站的部分内容wget。Webhttrack它为您提供了一个下载网站的向导（它会在您的浏览器中打开），如下面的屏幕截图所示。

Answer

如果您想使用wget，您可以使用镜像设置来制作网站的离线副本，尽管有些网站可能会使用 robots.txt 设置来阻止自动蜘蛛抓取。我一直遇到一些问题wget（请参阅下面的其他建议），但以下命令确实适用于许多网站。但是，意识到的添加开关-H允许它访问其他网站上的所有链接并保存这些链接。如果不需要，显然可以删除此命令开关。

 wget --wait 1 -x -H -mk http://site.to.mirror/

命令允许请求wait之间有一些间隙，wget's这样站点就不会不堪重负，命令-x开关指定站点的目录结构应完全镜像到您的主文件夹中的文件夹中。开关-m显然代表镜像模式，允许wget通过站点进行递归下载；-k开关意味着下载后引用的文件将是您主文件夹中镜像目录中的文件，而不是站点本身的文件。

之后man wget，也许最好的命令列表和详细解释wget是这里。

如果wget失败，并且您无法获取所需的内容，我应该尝试命令行程序httrack或其 Web 界面webhttrack，它们在存储库中可用。这个程序有很多选项，但它比更适合下载整个网站或网站的部分内容wget。Webhttrack它为您提供了一个下载网站的向导（它会在您的浏览器中打开），如下面的屏幕截图所示。

Question 2

我已经有一段时间没有用过wget这个目的了：

我相信我已经成功地举起了- m旗帜。

wget -mk http://site.com/directory

这可能不会让你得到一切 - 但它会让你接近一切。

（参考）：这一页

Answer

我已经有一段时间没有用过wget这个目的了：

我相信我已经成功地举起了- m旗帜。

wget -mk http://site.com/directory

这可能不会让你得到一切 - 但它会让你接近一切。

（参考）：这一页

使用 wget 下载整个网站时出现问题

答案1

答案2

相关内容