googlebot

Google-Bot 爱上了我的 404 页面
googlebot

Google-Bot 爱上了我的 404 页面

我的访问日志每天看起来都是这样的: 66.249.78.140 - - [21/Oct/2013:14:37:00 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (co...

Admin

Googlebot 增加页面 ID
googlebot

Googlebot 增加页面 ID

下面是我从 googlebot 获得的点击示例: 66.249.73.171 - - [19/Feb/2013:16:12:39 -0500] "GET /eghm-blah.php?pid=2855 HTTP/1.1" 200 1684 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 我的帖子设置为增加pid新帖子的页码...但是我最多pid只有 13 个。googlebot 一直在缓慢增加页码并寻找新帖子。当它尝试访问时,不会出现 404 ...

Admin

通过“Feedfetcher-Google”和 Google 代理 IP 路由的恶意请求
googlebot

通过“Feedfetcher-Google”和 Google 代理 IP 路由的恶意请求

我们正面临一个特殊情况,即有人通过“Google 代理”IP 地址向我们的网站发出恶意/未经授权的请求。 有人正在使用 Google 服务器“代理”我们的网站并提供所有相同的内容,剥离脚本并添加他们自己的广告。 请求用户代理: Mozilla/5.0 (compatible) Feedfetcher-Google; (+http://www.google.com/feedfetcher.html) 请求 IP 地址: Reverse IP (PTR) google-proxy-66-102-9-1.google.com ASN 15169 (GOOGL...

Admin

机器人流量导致 CPU 负载过高
googlebot

机器人流量导致 CPU 负载过高

Google 机器人的抓取速率为每 2 秒一次,它会在 KVM 主机和 VM(Web 服务器)上产生大约 1.0-1.5 的 CPU 负载(平均 1 分钟),直到机器人在凌晨 4 点左右停止。如果您看到图表,通过防火墙的 WAN 接口 RE0 传出的流量并不多,大多数时候都低于 1Mbps。但是,当您看到 Web 服务器的虚拟 BR0 接口的图表时,它大多数时候大约为 80Mbps(VM 的传出接口)。 我猜想是机器人流量导致了 CPU 利用率过高,但我不明白 Web 服务器流量为何会这么大(80Mbps),而且 WAN 接口上的流量也不多。感觉我在 VM...

Admin

域名服务器如何阻止 Google 机器人?
googlebot

域名服务器如何阻止 Google 机器人?

背景:我们的域名page.et无法被 Google 访问适合移动设备的检查工具.et和搜索控制台。我测试的所有其他域名似乎也都如此。 原因不是 robots.txt。Google 机器人甚至没有尝试连接到服务器(已通过验证tcpdump) 我想了解以下内容的技术背景回答另一个有类似/相同问题的用户: (来自俄语,通过谷歌翻译) 你好,Alexander!目前,我只了解到问题出在 .et 域名服务器方面 - 它们“阻止”了 Googlebot 因此,目前无论是您还是 Google,都没有机会直接影响此问题的解决。Google 专家正在尝试联系 NS .et ...

Admin

我会封锁一些与 Google 相关的服务的 IP 吗?
googlebot

我会封锁一些与 Google 相关的服务的 IP 吗?

在我的网站上,我创建了一个脚本,每当一个自称是 Google 的新 IP 访问该网站时,它都会向我发送一封电子邮件。 当我看到电子邮件时,我会去检查(例如在 whois.com 上)声称是 google 的 IP 是否真的是 google,如果不是,我会用防火墙阻止它。 通常我每周都会发现一两个假谷歌,但是在过去的几天里,谷歌一直在攻击我的服务器。 103432 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) C...

Admin

WAF(modsecurity) / Plesk IP 被禁止,是 Googlebot 吗?是误报吗?是恶意 IP 吗?
googlebot

WAF(modsecurity) / Plesk IP 被禁止,是 Googlebot 吗?是误报吗?是恶意 IP 吗?

我的 Plesk 服务器提醒我,某个 IP 地址已被禁止。通常我不会检查被禁止的 IP,但这次恰好与我们的网站同时停机 1 分钟。 Banned the following ip addresses on Mon Jul 27 21:05:01 AEST 2020 216.239.38.21 with 154 connections 我用Web 应用程序防火墙 (ModSecurity)Plesk 提供的 经过快速检查,我发现这是一个 Google IP:https://whatismyipaddress.com/ip/216.239.38.21 Host...

Admin

Googelbot 找到了我的原始 URI,尽管我有一个有效的重写指令
googlebot

Googelbot 找到了我的原始 URI,尽管我有一个有效的重写指令

我有 : RewriteRule ^Article/([^/]*)$ /article.php?newsid=$1 [L] 这意味着 URL 必须是//example.com/Article/855563 但 Google 会抓取//example.com/article.php?newsid=855563。我能做些什么来防止这种情况发生?或者将 301 重定向到example.com/Article/855563? ...

Admin

使用 nginx 在特定页面上阻止 googlebot
googlebot

使用 nginx 在特定页面上阻止 googlebot

目前我们的爬取速度已经超出了我们的处理能力。 我似乎无法让 nginx 阻止 googlebot server { location /ajax/sse.php { if ($http_user_agent ~* "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" ) { return 403; } } } 我们不得不在 php 脚本中阻止它 - if ($_SERVER['HT...

Admin

在部分网站上启用带有 SNI 的 TLS/SSL,而不会损失非 TLS 网站上的 SEO 排名
googlebot

在部分网站上启用带有 SNI 的 TLS/SSL,而不会损失非 TLS 网站上的 SEO 排名

我们在 AWS 上运行了多台 LAMP 服务器,上面有几十个网站,客户付钱让我们设计、构建和托管这些网站。这些服务器是安装了 Varnish、Apache 和 PHP 的 Ubuntu 14.04 服务器。 目前,如果客户希望其网站使用 SSL/TLS,我们会在服务器前面放置一个 Amazon ELB 负载均衡器来卸载 TLS 连接,这样 Varnish 仍然可以缓存内容。因此,每台服务器最终都由六个 ELB(每个 TLS 客户或网站一个)前置,而非 TLS 网站则由服务器直接处理。 为了降低成本并简化设置,我们希望消除所有 ELB 并直接在服务器上终止...

Admin

如何阻止 Google Favicon 机器人调用我的网站?
googlebot

如何阻止 Google Favicon 机器人调用我的网站?

我有一些后端 URL,只在 Google Chrome 中供自己使用。它不对外公开。但是出于某种原因,这个位于 Google 的机器人“Google Favicon”IP 调用了这个我不想要的 URL。我猜是 Google 从我的 Google Chrome 中获取了这个 URL,并尝试每天将缓存更新到这个 URL。我该怎么办?我不确定如果我阻止它的 IP,以后是否会从新 IP 调用它。 ...

Admin

来自 googlebot 的随机字符查询(例如 vvytnoxvontwusz.html)有什么用?
googlebot

来自 googlebot 的随机字符查询(例如 vvytnoxvontwusz.html)有什么用?

我的一个网站一直收到来自 googlebot 的查询,顺序如下: example-log:66.249.79.216 - - [06/Apr/2016:15:36:56 -0700] "GET /vvytnoxvontwusz.html HTTP/1.1" 404 15136 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" TLSv1.2 AES128-GCM-SHA256 过去几天我收到了几个这样的错误。该地址似乎确实在 Google 的 I...

Admin

允许 Google 绕过防火墙 Nginx
googlebot

允许 Google 绕过防火墙 Nginx

因此,我正在寻找一个系统,该系统基本上会为每个没有特定 cookie 的访问者返回 401。我希望如果访问者/请求者是 Google,它就不会返回 401。 这是我拥有的以下代码,它似乎不起作用,但我不确定为什么。 基本上,我让它检查 cookie,然后通过用户代理检查它是否不是 google。 如果两者都属实,那么它将返回 401。 可能是因为当我通过网站管理员工具获取我的网站时,谷歌仍然会得到 401 错误。 ...

Admin

将网站移至新服务器 - 更新 DNS - 网络爬虫仍然通过 IP 访问旧网站
googlebot

将网站移至新服务器 - 更新 DNS - 网络爬虫仍然通过 IP 访问旧网站

大约十天前,我将一个网站(主要是 Joomla 论坛)移至了不同 IP 地址的新服务器。在短暂的计划停机期间,我复制了内容并像往常一样完成了 DNS 切换(通过 Cloudflare),大多数流量都随之而来 - 所有真实用户都可以从新位置访问该网站,并且似乎大多数网络爬虫请求都已完成。 但是,仍有网络爬虫试图通过旧 IP 访问我的网站。我的意思是,具体通过 IP 地址 - 尽管它们试图爬取现在存在于新服务器上的有效路径。这主要是 GoogleBot,但我也看到零星的 BingBot 或 Yahoo Slurp 条目。Apache 日志显示旧服务器上每分钟有...

Admin

阻止假冒谷歌机器人
googlebot

阻止假冒谷歌机器人

我如何才能阻止使用假 Google 机器人的 DDOS 攻击? 我在网上找到了 2 个解决方案。但似乎两者都能阻止正确的 Google 机器人。 # Block fake google when it's not coming from their IP range's (A fake googlebot) [F] => Failure RewriteCond %{HTTP:X-FORWARDED-FOR} !^66\.249\.(6[4-9]|[78][0-9]|9[0-5])\. RewriteC...

Admin