如何使用终端从网站（非网页）下载所有图像？

Question 1

您可以使用：

wget -r -A=.jpg,.png http://website.com

使用此命令，您将获得所有 JPG 和 PNG 文件，但您可能会被禁止访问该网站。

因此，如果您使用：

wget --random-wait --limit-rate=100k -r -A=.jpg,.png http://website.com

您将在下载之间随机等待图像并设置速度限制。

Answer

您可以使用：

wget -r -A=.jpg,.png http://website.com

使用此命令，您将获得所有 JPG 和 PNG 文件，但您可能会被禁止访问该网站。

因此，如果您使用：

wget --random-wait --limit-rate=100k -r -A=.jpg,.png http://website.com

您将在下载之间随机等待图像并设置速度限制。

Question 2

你可以下载整个网站（我会使用wget -r -p -l inf -np），然后（或同时）运行一个 shell 脚本来删除所有非图像文件（该file命令可用于检查文件是否是图像）。

（-A/-Rwget 的选项不可靠；它们只检查 URL 的扩展名（因此您可以通过 .jpg、.jpeg、.png 等进行过滤），但没有要求这些选项必须存在。）

Answer

你可以下载整个网站（我会使用wget -r -p -l inf -np），然后（或同时）运行一个 shell 脚本来删除所有非图像文件（该file命令可用于检查文件是否是图像）。

（-A/-Rwget 的选项不可靠；它们只检查 URL 的扩展名（因此您可以通过 .jpg、.jpeg、.png 等进行过滤），但没有要求这些选项必须存在。）

Question 3

通过使用大多数单行命令提供的强力方法，您几乎无法获得良好的结果（尽管我经常使用 wget 选项来获取整个站点）。

我建议您创建一个脚本，使用某种形式的条件选择和循环来实际匹配并遵循将您带到所需图像的链接。

我通常遵循的策略：

这确实比一行代码要复杂得多，但这种体验很有启发性。网页抓取本身就是一门艺术。

为此，我也推荐使用 Python，尽管如果您愿意，完全可以使用 Shell 脚本（bash）或任何脚本语言（Ruby、PHP、perl 等）来完成。

希望这可以帮助。

Answer