googlebot

Google-Bot 爱上了我的 404 页面

我的访问日志每天看起来都是这样的： 66.249.78.140 - - [21/Oct/2013:14:37:00 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (co...

Admin 2024-6-2

googlebot

Googlebot 增加页面 ID

下面是我从 googlebot 获得的点击示例： 66.249.73.171 - - [19/Feb/2013:16:12:39 -0500] "GET /eghm-blah.php?pid=2855 HTTP/1.1" 200 1684 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 我的帖子设置为增加pid新帖子的页码...但是我最多pid只有 13 个。googlebot 一直在缓慢增加页码并寻找新帖子。当它尝试访问时，不会出现 404 ...

Admin 2024-6-2

googlebot

通过“Feedfetcher-Google”和 Google 代理 IP 路由的恶意请求

我们正面临一个特殊情况，即有人通过“Google 代理”IP 地址向我们的网站发出恶意/未经授权的请求。有人正在使用 Google 服务器“代理”我们的网站并提供所有相同的内容，剥离脚本并添加他们自己的广告。请求用户代理： Mozilla/5.0 (compatible) Feedfetcher-Google; (+http://www.google.com/feedfetcher.html) 请求 IP 地址： Reverse IP (PTR) google-proxy-66-102-9-1.google.com ASN 15169 (GOOGL...

Admin 2024-6-2

googlebot

机器人流量导致 CPU 负载过高

Google 机器人的抓取速率为每 2 秒一次，它会在 KVM 主机和 VM（Web 服务器）上产生大约 1.0-1.5 的 CPU 负载（平均 1 分钟），直到机器人在凌晨 4 点左右停止。如果您看到图表，通过防火墙的 WAN 接口 RE0 传出的流量并不多，大多数时候都低于 1Mbps。但是，当您看到 Web 服务器的虚拟 BR0 接口的图表时，它大多数时候大约为 80Mbps（VM 的传出接口）。我猜想是机器人流量导致了 CPU 利用率过高，但我不明白 Web 服务器流量为何会这么大（80Mbps），而且 WAN 接口上的流量也不多。感觉我在 VM...

Admin 2024-6-1

googlebot

域名服务器如何阻止 Google 机器人？

背景：我们的域名page.et无法被 Google 访问适合移动设备的检查工具.et和搜索控制台。我测试的所有其他域名似乎也都如此。原因不是 robots.txt。Google 机器人甚至没有尝试连接到服务器（已通过验证tcpdump）我想了解以下内容的技术背景回答另一个有类似/相同问题的用户：（来自俄语，通过谷歌翻译）你好，Alexander！目前，我只了解到问题出在 .et 域名服务器方面 - 它们“阻止”了 Googlebot 因此，目前无论是您还是 Google，都没有机会直接影响此问题的解决。Google 专家正在尝试联系 NS .et ...

Admin 2024-6-1

googlebot

我会封锁一些与 Google 相关的服务的 IP 吗？

在我的网站上，我创建了一个脚本，每当一个自称是 Google 的新 IP 访问该网站时，它都会向我发送一封电子邮件。当我看到电子邮件时，我会去检查（例如在 whois.com 上）声称是 google 的 IP 是否真的是 google，如果不是，我会用防火墙阻止它。通常我每周都会发现一两个假谷歌，但是在过去的几天里，谷歌一直在攻击我的服务器。 103432 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) C...

Admin 2024-6-1

googlebot

WAF(modsecurity) / Plesk IP 被禁止，是 Googlebot 吗？是误报吗？是恶意 IP 吗？

我的 Plesk 服务器提醒我，某个 IP 地址已被禁止。通常我不会检查被禁止的 IP，但这次恰好与我们的网站同时停机 1 分钟。 Banned the following ip addresses on Mon Jul 27 21:05:01 AEST 2020 216.239.38.21 with 154 connections 我用Web 应用程序防火墙 (ModSecurity)Plesk 提供的经过快速检查，我发现这是一个 Google IP：https://whatismyipaddress.com/ip/216.239.38.21 Host...

Admin 2024-6-1

googlebot

Googelbot 找到了我的原始 URI，尽管我有一个有效的重写指令

我有： RewriteRule ^Article/([^/]*)$ /article.php?newsid=$1 [L] 这意味着 URL 必须是//example.com/Article/855563 但 Google 会抓取//example.com/article.php?newsid=855563。我能做些什么来防止这种情况发生？或者将 301 重定向到example.com/Article/855563？ ...

Admin 2024-6-1

googlebot

使用 nginx 在特定页面上阻止 googlebot

目前我们的爬取速度已经超出了我们的处理能力。我似乎无法让 nginx 阻止 googlebot server { location /ajax/sse.php { if ($http_user_agent ~* "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" ) { return 403; } } } 我们不得不在 php 脚本中阻止它 - if ($_SERVER['HT...

Admin 2024-5-31

googlebot

在部分网站上启用带有 SNI 的 TLS/SSL，而不会损失非 TLS 网站上的 SEO 排名

我们在 AWS 上运行了多台 LAMP 服务器，上面有几十个网站，客户付钱让我们设计、构建和托管这些网站。这些服务器是安装了 Varnish、Apache 和 PHP 的 Ubuntu 14.04 服务器。目前，如果客户希望其网站使用 SSL/TLS，我们会在服务器前面放置一个 Amazon ELB 负载均衡器来卸载 TLS 连接，这样 Varnish 仍然可以缓存内容。因此，每台服务器最终都由六个 ELB（每个 TLS 客户或网站一个）前置，而非 TLS 网站则由服务器直接处理。为了降低成本并简化设置，我们希望消除所有 ELB 并直接在服务器上终止...

Admin 2024-5-31

googlebot

如何阻止 Google Favicon 机器人调用我的网站？

我有一些后端 URL，只在 Google Chrome 中供自己使用。它不对外公开。但是出于某种原因，这个位于 Google 的机器人“Google Favicon”IP 调用了这个我不想要的 URL。我猜是 Google 从我的 Google Chrome 中获取了这个 URL，并尝试每天将缓存更新到这个 URL。我该怎么办？我不确定如果我阻止它的 IP，以后是否会从新 IP 调用它。 ...

Admin 2024-5-30

googlebot

来自 googlebot 的随机字符查询（例如 vvytnoxvontwusz.html）有什么用？

我的一个网站一直收到来自 googlebot 的查询，顺序如下： example-log:66.249.79.216 - - [06/Apr/2016:15:36:56 -0700] "GET /vvytnoxvontwusz.html HTTP/1.1" 404 15136 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" TLSv1.2 AES128-GCM-SHA256 过去几天我收到了几个这样的错误。该地址似乎确实在 Google 的 I...

Admin 2024-5-30

googlebot

允许 Google 绕过防火墙 Nginx

因此，我正在寻找一个系统，该系统基本上会为每个没有特定 cookie 的访问者返回 401。我希望如果访问者/请求者是 Google，它就不会返回 401。这是我拥有的以下代码，它似乎不起作用，但我不确定为什么。基本上，我让它检查 cookie，然后通过用户代理检查它是否不是 google。如果两者都属实，那么它将返回 401。可能是因为当我通过网站管理员工具获取我的网站时，谷歌仍然会得到 401 错误。 ...

Admin 2024-5-30

googlebot

将网站移至新服务器 - 更新 DNS - 网络爬虫仍然通过 IP 访问旧网站

大约十天前，我将一个网站（主要是 Joomla 论坛）移至了不同 IP 地址的新服务器。在短暂的计划停机期间，我复制了内容并像往常一样完成了 DNS 切换（通过 Cloudflare），大多数流量都随之而来 - 所有真实用户都可以从新位置访问该网站，并且似乎大多数网络爬虫请求都已完成。但是，仍有网络爬虫试图通过旧 IP 访问我的网站。我的意思是，具体通过 IP 地址 - 尽管它们试图爬取现在存在于新服务器上的有效路径。这主要是 GoogleBot，但我也看到零星的 BingBot 或 Yahoo Slurp 条目。Apache 日志显示旧服务器上每分钟有...

Admin 2024-5-30

googlebot

阻止假冒谷歌机器人

我如何才能阻止使用假 Google 机器人的 DDOS 攻击？我在网上找到了 2 个解决方案。但似乎两者都能阻止正确的 Google 机器人。 # Block fake google when it's not coming from their IP range's (A fake googlebot) [F] => Failure RewriteCond %{HTTP:X-FORWARDED-FOR} !^66\.249\.(6[4-9]|[78][0-9]|9[0-5])\. RewriteC...

Admin 2024-5-30