从网站递归下载

从网站递归下载

我正在尝试从该产品文件夹中的网站网址“”获取图像,www.example.com/products其中有很多子文件夹,我需要下载产品文件夹。

在 www.example.com/products、www.example.com/products/subfolders 中,图像为

  • www.example.com/products/subfolder1/image.jpg,
  • www.example.com/products/subfolder2/image.jpg,
  • www.example.com/products/subfolder3/image.jpg

如何下载包含数据子文件夹的产品文件夹。

答案1

wget -nd -r -l1 -P /save/location -A jpeg,jpg http://www.example.com/products

解释 :

-nd防止创建目录层次结构(即没有目录)。

-r启用递归检索。看递归下载了解更多信息。

-l1指定递归最大深度级别。 1 对于您的情况,仅此目录是products.

-P设置保存所有文件和目录的目录前缀。

-A设置白名单以仅检索某些文件类型。接受字符串和模式,并且两者都可以在逗号分隔的列表中使用(如上所示)。看文件类型了解更多信息。

答案2

尝试一下httrack(1),一个网络蜘蛛,它对于创建整个网站的本地镜像最有用。

链接的联机帮助页中的示例应该可以帮助您入门。

答案3

wget -nH --page-requisites -R -nH -P mirrorDirectory https://example.com

其中,mirrorDirectory 是要存储输出的路径。

相关内容