当我尝试从该网站提取所有 jpeg 图像时(http://www.zodiackillerfacts.com/gallery/)使用 wget:
wget -A jpg,jpeg -r http://www.zodiackillerfacts.com/gallery/
它只下载缩略图。我怎样才能使用 wget 下载全尺寸 jpeg,而不是逐一浏览所有 1000 张图片并单击它们?这些图片都在网站上的不同“相册”中。
答案1
您将需要一个脚本来解析图库页面,然后使用 wget。对于这个特定的网站,脚本可能非常简单,如下所示:
#!/bin/bash
wget -qO - "http://www.zodiackillerfacts.com/gallery/" | \
egrep -o 'thumbnails\.php\?album=[0-9]+' | \
sort -u | \
while read gallery
do
wget -O "/tmp/$$" "http://www.zodiackillerfacts.com/gallery/$gallery"
album=$(egrep -m1 -o '<title>[^<]+' /tmp/$$ | \
sed -e 's/^<title>//' -e 's/[^a-zA-Z0-9 :-()]//g')
mkdir "$album" || continue
cd "$album"
egrep -o 'src="albums/[^"]*' "/tmp/$$" | \
sed -e 's/thumb_//' \
-e 's!^src="!http://www.zodiackillerfacts.com/gallery/!' | \
wget -i -
cd ..
rm "/tmp/$$"
done
在这里,我们获取第一页的 HTML,解析图库链接,获取每个图库的 HTML,为其创建目录并获取所有图像。虽然不是很漂亮或很强大,但它似乎可以完成工作。