尝试使用 wget 获取动态页面但没有成功

尝试使用 wget 获取动态页面但没有成功

我正在使用此命令通过 wget 获取 iTunes 上的页面及其所有图像和 javascript。我想要的只是这个页面及其所有图像和脚本。

 wget -kKErpNF --no-check-certificate --html-extension  -nd -A jpg,jpeg,png,js  -nH https://itunes.apple.com/us/app/megamilhoes-megasena-gerador/id854897303?mt=12

该命令几乎可以正常工作,但它不会保存页面本身,因为该页面是动态的并且内置在浏览器中。页面上没有 html/html 扩展名。我怎样才能得到它?

--html-extension没有造成任何影响。我在 OSX Mavericks 上。

答案1

苹果默认拒绝 html 文件下载。我使用了您在我的机器中指定的命令。如果你仔细查看输出,你会得到类似这样的结果。

Loading robots.txt; please ignore errors.
--2014-05-24 10:43:50--  https://itunes.apple.com/robots.txt
Connecting to itunes.apple.com|23.206.210.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 234 [text/plain]
Saving to: `robots.txt'

因此按照答案我们可以忽略机器人.txt-e robots=off通过在命令中使用来创建文件。

Wget默认情况下尊重robots.txt 标准对于爬行页面,就像搜索引擎一样,对于 archive.org,它不允许整个 /web/ 子目录。要覆盖,请使用-e robots= off,

因此,我修改了您的命令以添加-e robots= off,当我再次运行该命令时,我得到了以下输出。

Connecting to itunes.apple.com|23.204.162.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: `id854897303?mt=12.html'

    [ <=>                                                                                                                                                  ] 33,456      --.-K/s   in 0.001s  

2014-05-24 10:48:38 (30.1 MB/s) - `id854897303?mt=12.html' saved [33456]

Removing id854897303?mt=12.html since it should be rejected.

如您所见,文件下载被苹果阻止,我们对此无能为力。

编辑:即使没有-e robots=off,我们也无法下载 html 文件。它也说你原来的 wget 也被拒绝了。所以,我怀疑苹果不允许wget下载。

相关内容