为什么 wget 在此 URL 上失败?

为什么 wget 在此 URL 上失败?

如果我在 BBC RSS 上执行 wget,它运行正常:

wget http://feeds.bbci.co.uk/news/world/rss.xml

但如果我多次这样做,我会收到 403 禁止错误:

wget http://www.thetimes.co.uk/tto/news/rss

尽管这应该是正确的 RSS: http://www.thetimes.co.uk/tto/newsrss/?service=rss

请问我遗漏了什么?

答案1

在大多数情况下,向 wget 提供用户代理将解决诸如 403 forbidden 之类的错误:

wget -U "Mozilla" http://www.thetimes.co.uk/tto/news/rss

这对我有用。

答案2

请求可能失败,因为《时代》根据提供的用户代理进行过滤。

要更改用户代理以模拟 OSX 上的 Firefox,请尝试以下操作:

wget --header="Accept: text/html" --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" http://www.thetimes.co.uk/tto/news/rss

相关内容