例如,我想下载网页中显示的图像https://www.wikiart.org/en/paintings-by-style/art-nouveau-modern,(下面的所有艺术品选项卡),并将它们存储在文件夹中(例如/home/boomer/GH/A_nou/)。
我怎样才能实现这个目标?
我可以使用wget
orcurl
来实现这一点,但遗憾的是我不知道如何处理它们。
我也不想要中间图像(横幅、徽标、ETC。),艺术品部分下的所有内容均仅限全尺寸图像。
答案1
查看源代码,搜索.jpg"
,您将看到那里的所有图像,请注意它们都用双引号引起来。因此,将 HTML 源代码保存到您的计算机上,我选择/tmp/test_art.html
并搜索"
,替换为换行符,然后 grep 所有以 结尾的行jpg
,然后将所有这些行传递给 wget:
wget $(sed 's/"/\n/g;' /tmp/test_art.html| grep 'jpg$')
当然,这确实是微不足道的,一些 sed 大师很快就会出现,并提出一个单行代码,保存 grep ...我认为对于像这样的临时东西来说,工作量太大了...又快又脏。
打开终端并将目录更改为要存储文件的目录:
cd /home/boomer/GH/A_nou/
然后运行上面的命令。