我正在寻找一种方法来抓取博客中的所有图片,即使这些图片在博客本身上不可见(嵌入)。换句话说,就是上传到网页但尚未嵌入文章的图片。
假设某人有一个博客:bestblogever.com/
并且他发表了文章:bestblogever.com/24/11/
该文章中只有一张图片:bestblogever.com/24/11/IMG_23.jpg
我知道目录 bestblogever.com/24/11/ 包含更多图片,但我不知道 URL。有没有办法(最好是)一个软件可以搜索和下载所有未列出的图片?例如:
bestblogever.com/24/11/IMG_23.jpg
bestblogever.com/24/11/IMG_55.jpg
bestblogever.com/24/11/IMG_08.jpg
bestblogever.com/24/11/IMG_65.jpg
我尝试了 HTTrack,但它似乎只能抓取网页上实际可显示的图像。
答案1
在我们的姊妹网站 StackOverflow 中,你可以阅读类似以下内容 [1]
for /L %%I in (0,1,100) do (
wget "http://download/img%%I.png"
sleep 1
)
在 Linux 下,您可以使用相同的构造,或者例如,
seq 0 1 100 | awk '{printf("wget http://download/img%d.png\n",$1)}'| /bin/sh
笔记:
- 如果使用
%3.3d
而不是 ,%d
您将获得img000.png
...img012.png
...img100.png
,而不是img0.png
...img12.png
...img100.png
。 - 如果您避免使用最后一个管道 (
| /bin/sh
),则会在 shell 上打印生成的输出。
检查其正确性后,您可以再次添加并执行它。 \n
在输出中添加一个换行符。您可能希望在后面添加一个sleep 1.23 \n
新行,表示两次下载之间等待 1.23 秒。- 您可能需要向 wget 添加一些选项[2]命令行。