我只想下载 tumblr 上一页的图像。
例如http://landscapes.tumblr.com/page/7
当在浏览器上加载此页面时(我尝试过 firefox 和 chrome),正好有 15 个图像,但是当我尝试使用 wget 下载它们时,我得到了 60 个图像(对应于第 7-11 页)。我用来下载的命令是
wget -H -k -p -R "*avatar*" -A '.jpeg,.jpg,.bmp,.gif,.png' -np -nd -N -erobots=off -i http://landscapes.tumblr.com/page/7
有人可以解释一下为什么 wget 下载的页面比作为参数给出的页面多,以及如何让它只下载一页吗?提前谢谢你。
答案1
从wget 手册:
-i file
--input-file=file
从本地或外部读取 URL文件。
[...]
-p
--page-requisites
此选项使 Wget 下载正确显示给定 HTML 页面所需的所有文件。这包括内联图像、声音和引用的样式表等内容。
由于您的命令包含两者,因此您将检索原始页面、从该页面链接的所有内容(包括所有后续页面)以及每个页面的所有必需项。
删除后-i
,它仅获取原始页面的必需内容。