如何获取 IMDb 留言板页面?

如何获取 IMDb 留言板页面?

由于 IMDb 计划在两周内删除所有留言板,我想获取一些页面,但wget未能成功。

这是我做的:

  1. 以用户身份登录于http://www.imdb.com/boards/页。
  2. 使用以下方式将 cookies 导出到cookies.txt文件中cookies.txt Chrome 扩展程序
  3. wget按如下方式运行(如cookies.txt文件中建议的那样):

    $ wget -x --load-cookies cookies.txt --keep-session-cookies -e robots=off -A Mozilla http://www.imdb.com/boards/
    --2017-02-09 15:19:45--  http://www.imdb.com/boards/
    Resolving www.imdb.com... 54.239.23.73
    Connecting to www.imdb.com|54.239.23.73|:80... connected.
    HTTP request sent, awaiting response... 503 Service Temporarily Unavailable
    2017-02-09 15:19:46 ERROR 503: Service Temporarily Unavailable.
    

    这甚至不需要 就可以工作cookies.txt,因为该页面可供公众访问。

我错过了什么?

答案1

似乎需要添加一些额外的设置,包括用户代理。我将以下内容添加到我的~/.wgetrc文件中,似乎可以完成工作。虽然偶尔我会收到 500 或 503 错误。我想知道这是否是一种限制/安全机制。

header = Accept-Language: en-us,en;q=0.5
header = Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
header = Connection: keep-alive
user_agent = Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:53.0) Gecko/20100101 Firefox/53.0
referer = /
robots = off

得到这个答案的基础来自堆栈溢出

答案2

虽然不是你问题的直接答案,但是备份 IMDB 的共同倡议由 ArchiveTeam 提供:所有感兴趣的人都可以帮助下载共同档案最终进入archive.org(参见archiveteam收藏)。

提供了说明。基本上,您可以运行名为存档团队战士,但我决定使用 Linux 脚本。

相关内容