从网页中抓取所有“非嵌入”图像

从网页中抓取所有“非嵌入”图像

我正在寻找一种方法来抓取博客中的所有图片,即使这些图片在博客本身上不可见(嵌入)。换句话说,就是上传到网页但尚未嵌入文章的图片。

假设某人有一个博客:bestblogever.com/

并且他发表了文章:bestblogever.com/24/11/

该文章中只有一张图片:bestblogever.com/24/11/IMG_23.jpg

我知道目录 bestblogever.com/24/11/ 包含更多图片,但我不知道 URL。有没有办法(最好是)一个软件可以搜索和下载所有未列出的图片?例如:

bestblogever.com/24/11/IMG_23.jpg

bestblogever.com/24/11/IMG_55.jpg

bestblogever.com/24/11/IMG_08.jpg

bestblogever.com/24/11/IMG_65.jpg

我尝试了 HTTrack,但它似乎只能抓取网页上实际可显示的图像。

答案1

在我们的姊妹网站 StackOverflow 中,你可以阅读类似以下内容 [1]

for /L %%I in (0,1,100) do (
    wget "http://download/img%%I.png"
    sleep 1
)

在 Linux 下,您可以使用相同的构造,或者例如,

seq 0 1 100 | awk '{printf("wget http://download/img%d.png\n",$1)}'| /bin/sh

笔记:

  • 如果使用%3.3d而不是 ,%d您将获得img000.png... img012.png... img100.png,而不是img0.png... img12.png... img100.png
  • 如果您避免使用最后一个管道 ( | /bin/sh),则会在 shell 上打印生成的输出。
    检查其正确性后,您可以再次添加并执行它。
  • \n在输出中添加一个换行符。您可能希望在后面添加一个sleep 1.23 \n新行,表示两次下载之间等待 1.23 秒。
  • 您可能需要向 wget 添加一些选项[2]命令行。

相关内容