我想编写一个代码,使用 shell 脚本给出电视剧或电影中角色的名字...我计划通过提取谷歌搜索结果的页面源代码来实现这一点,我需要链接的页面源代码...例如这个关联 我尝试直接使用 wget,但它给出了错误代码 8,并且 curl -L 提供了“错误”的页面源
答案1
如果您查看 wget 日志消息,您将看到您最终从 Google 收到“403 Forbidden”。
欢迎观看这个 Stackoverflow 答案。Google 不希望其搜索结果页面被以自动化的方式使用,我想他们有充分的理由。
如果你仍然想这样做,你可以使用以下命令设置另一个用户代理字符串wget --user-agent=Chrome -O results.html 'https://www.google.com/search?hl=en&q=iron%20man%20character%20names'
然而,您从 Google 获得的答案并不容易解析 - 也许您可以使用电影数据库来完成这项任务?