使用 wget 下载嵌套的 pdf 文件

使用 wget 下载嵌套的 pdf 文件

我正在尝试下载位于此处链接的页面上的数十个 PDF 文件:

http://machineknittingetc.com/passap.html?limit=all

每个 PDF 均由以 结尾的 URL 引用/downloadable/download/sample/sample_id/[some three digit number]/

我已经尝试过这些:

wget -r -l2 -A.pdf http://machineknittingetc.com/passap.html?limit=all
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.pdf"
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.###"

它没有获取 PDF。

这是否与服务器没有被索引以允许我像文件层次结构一样访问 URL 有关?有办法让它发挥作用吗?

答案1

这对你有用吗?

#!/bin/bash
for i in {000..175}
do
     wget  http://machineknittingetc.com/downloadable/download/sample/sample_id/$i
done

答案2

@rajaganesh87您正在猜测目录链接号,并且您的代码是否不适用于每个基本链接所需的实际链接http://machineknittingetc.com/passap.html?limit=all 以及与其相关的 (.pdf) 文件。

问题是你被阻止了

机器人.txt 文件

并且您在中使用点(.)

    -A .pdf

尝试下面我测试过的代码,它可以工作。

 wget -np -nd -r -l2 -A pdf -e robots=off http://machineknittingetc.com/passap.html?limit=all 

相关内容