我是一名 Java 工程师,没有任何开发运营经验。最近我第一次使用 Linux Ubuntu 服务器,并将 docker 用于我的 Selenium 项目,遇到了这个问题:
我尝试从某个网站抓取 HTML,但我的呼叫被阻止,并且收到 403 禁止响应。我尝试 curl 同一个网站,也得到了相同的响应。
此外,我只在我的 Linux 机器上被阻止,一切都在具有相同 docker 映像的本地开发环境中运行,所以这就是我认为是“服务器故障”的原因。
知道我的 Linux 服务器缺少什么吗?也许我没有某种证书或有 cors 问题?知道我可以尝试什么吗?(仅用于学习目的)
答案1
我认为您的网站受到了速率限制或屏蔽。如果我从笔记本电脑运行相同的 curl 命令,我就能恢复网页。
robots.txt
如果您正在进行网页抓取,请记住要尊重它。