由于 IMDb 计划在两周内删除所有留言板,我想获取一些页面,但wget
未能成功。
这是我做的:
- 以用户身份登录于http://www.imdb.com/boards/页。
- 使用以下方式将 cookies 导出到
cookies.txt
文件中cookies.txt Chrome 扩展程序。 wget
按如下方式运行(如cookies.txt
文件中建议的那样):$ wget -x --load-cookies cookies.txt --keep-session-cookies -e robots=off -A Mozilla http://www.imdb.com/boards/ --2017-02-09 15:19:45-- http://www.imdb.com/boards/ Resolving www.imdb.com... 54.239.23.73 Connecting to www.imdb.com|54.239.23.73|:80... connected. HTTP request sent, awaiting response... 503 Service Temporarily Unavailable 2017-02-09 15:19:46 ERROR 503: Service Temporarily Unavailable.
这甚至不需要 就可以工作
cookies.txt
,因为该页面可供公众访问。
我错过了什么?
答案1
似乎需要添加一些额外的设置,包括用户代理。我将以下内容添加到我的~/.wgetrc
文件中,似乎可以完成工作。虽然偶尔我会收到 500 或 503 错误。我想知道这是否是一种限制/安全机制。
header = Accept-Language: en-us,en;q=0.5
header = Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
header = Connection: keep-alive
user_agent = Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:53.0) Gecko/20100101 Firefox/53.0
referer = /
robots = off
得到这个答案的基础来自堆栈溢出。
答案2
虽然不是你问题的直接答案,但是备份 IMDB 的共同倡议由 ArchiveTeam 提供:所有感兴趣的人都可以帮助下载共同档案最终进入archive.org(参见archiveteam
收藏)。
提供了说明。基本上,您可以运行名为存档团队战士,但我决定使用 Linux 脚本。