如果我在 BBC RSS 上执行 wget,它运行正常:
wget http://feeds.bbci.co.uk/news/world/rss.xml
但如果我多次这样做,我会收到 403 禁止错误:
wget http://www.thetimes.co.uk/tto/news/rss
尽管这应该是正确的 RSS: http://www.thetimes.co.uk/tto/newsrss/?service=rss
请问我遗漏了什么?
答案1
在大多数情况下,向 wget 提供用户代理将解决诸如 403 forbidden 之类的错误:
wget -U "Mozilla" http://www.thetimes.co.uk/tto/news/rss
这对我有用。
答案2
请求可能失败,因为《时代》根据提供的用户代理进行过滤。
要更改用户代理以模拟 OSX 上的 Firefox,请尝试以下操作:
wget --header="Accept: text/html" --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0" http://www.thetimes.co.uk/tto/news/rss