我使用的是 Ubuntu 13.04。我打开了这个网站在我的浏览器中。该网站开始下载书籍并在同一页面上显示书籍的预览。
我想将页面上显示的书籍下载到我系统的硬盘上。如果我使用wget
,它只会下载页面,而不下载书籍。这是我正在尝试的命令,请通过在浏览器中打开 URL 然后使用 来检查清晰度wget
。
$ wget http://www.amazon.com/gp/reader/0072520426/ref=sib_dp_ptu#reader-link
当您通过网络浏览器打开时,该书将开始下载并显示在页面上。如何将这本书下载到我的硬盘上。页面上也没有可供下载的选项。
答案1
这本书是一系列图像,可以在开发人员选项卡(或开发工具或源页面,无论您喜欢如何称呼它)中看到,您可能需要使用递归方法来下载所有图像(如果服务器允许) )。
答案2
我通常使用httrack
用于从站点下载/镜像网页内容。
$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0
运行后,您将得到一个本地且可浏览的目录结构。例如:
$ ls -l
total 304
-rw-r--r-- 1 saml saml 4243 Aug 17 10:20 backblue.gif
-rw-r--r-- 1 saml saml 828 Aug 17 10:20 fade.gif
drwx------ 3 saml saml 4096 Aug 17 10:20 hts-cache
-rw-rw-r-- 1 saml saml 233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r-- 1 saml saml 1517 Aug 17 10:20 hts-log.txt
-rw------- 1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r-- 1 saml saml 5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml 4096 Aug 17 10:21 2011.example.com
下载时您将看到以下类型的输出:
Bytes saved: 21,89KiB Links scanned: 12/45 (+4)
Time: 2s Files written: 4
Transfer rate: 2,65KiB/s (2,65KiB/s) Files updated: 1
Active connections: 1 Errors: 7
Current job: parsing HTML file (57%)
request - 2011.example.com/cgi-bin/hostnames.pl 0B / 8,00KiB
它可以在后台运行和/或中止,然后再恢复。这只是其功能的冰山一角。还有一个 GUI 用于设置下载并监控下载进度。
有大量关于httrack
网站并通过谷歌搜索。