我正在尝试下载位于此处链接的页面上的数十个 PDF 文件:
http://machineknittingetc.com/passap.html?limit=all
每个 PDF 均由以 结尾的 URL 引用/downloadable/download/sample/sample_id/[some three digit number]/
。
我已经尝试过这些:
wget -r -l2 -A.pdf http://machineknittingetc.com/passap.html?limit=all
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.pdf"
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.###"
它没有获取 PDF。
这是否与服务器没有被索引以允许我像文件层次结构一样访问 URL 有关?有办法让它发挥作用吗?
答案1
这对你有用吗?
#!/bin/bash
for i in {000..175}
do
wget http://machineknittingetc.com/downloadable/download/sample/sample_id/$i
done
答案2
@rajaganesh87您正在猜测目录链接号,并且您的代码是否不适用于每个基本链接所需的实际链接http://machineknittingetc.com/passap.html?limit=all 以及与其相关的 (.pdf) 文件。
问题是你被阻止了
机器人.txt 文件
并且您在中使用点(.)
-A .pdf
尝试下面我测试过的代码,它可以工作。
wget -np -nd -r -l2 -A pdf -e robots=off http://machineknittingetc.com/passap.html?limit=all