无法使用非浏览器客户端访问该网站，但可以使用网络浏览器

Question 1

正如其他人指出的那样，检查网站的 robots.txt 中是否有此内容

User-Agent: curl
Disallow: /

如果它在那里，那么你就不能在该特定网站上使用curl

如果是这样的话你就不能这样做任何爬行

User-agent: *
Disallow: /

要找到它，只需在网址后输入 /robots.txtexample.com/robots.txt

Answer

正如其他人指出的那样，检查网站的 robots.txt 中是否有此内容

User-Agent: curl
Disallow: /

如果它在那里，那么你就不能在该特定网站上使用curl

如果是这样的话你就不能这样做任何爬行

User-agent: *
Disallow: /

要找到它，只需在网址后输入 /robots.txtexample.com/robots.txt

Question 2

我设法通过添加以下标头来使curl 请求正常工作。请注意，所有这些都是必需的，仅用户代理标头还不够：

> User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:123.0) Gecko/20100101 Firefox/123.0
> Accept-Language: en-US,en;q=0.5
> Accept-Encoding: gzip, deflate, br
> Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8

我通过查看浏览器开发人员控制台的网络选项卡中的请求标头来获取它们。

Accept header 也可以简单地是Accept: */*.

Answer

我设法通过添加以下标头来使curl 请求正常工作。请注意，所有这些都是必需的，仅用户代理标头还不够：

> User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:123.0) Gecko/20100101 Firefox/123.0
> Accept-Language: en-US,en;q=0.5
> Accept-Encoding: gzip, deflate, br
> Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8

我通过查看浏览器开发人员控制台的网络选项卡中的请求标头来获取它们。

Accept header 也可以简单地是Accept: */*.

Question 3

我跟踪的网站也遇到同样的问题（这就是我最初提出你的问题的原因）。奇怪的是，我多年来一直跟踪这个网站（使用curl）没有任何问题 - 但现在这是一个“问题”！也许这是一个趋势？

不管怎样 - 自从阅读你的问题后，我找到了一个适合我的解决方案：lynx-“命令行”网页浏览器。lynx有很多选择，因此您可能需要投入一些时间阅读man lynx等。以下是对我有用的方法：

lynx -dump -accept_all_cookies 'https://wherever.com/viewtopic.php?t=abc123' > my-dump.txt

Answer

我跟踪的网站也遇到同样的问题（这就是我最初提出你的问题的原因）。奇怪的是，我多年来一直跟踪这个网站（使用curl）没有任何问题 - 但现在这是一个“问题”！也许这是一个趋势？

不管怎样 - 自从阅读你的问题后，我找到了一个适合我的解决方案：lynx-“命令行”网页浏览器。lynx有很多选择，因此您可能需要投入一些时间阅读man lynx等。以下是对我有用的方法：

lynx -dump -accept_all_cookies 'https://wherever.com/viewtopic.php?t=abc123' > my-dump.txt

无法使用非浏览器客户端访问该网站，但可以使用网络浏览器

答案1

答案2

答案3

相关内容