谷歌的网络爬虫会下载二进制文件吗？

Question 1

你的第一个问题的答案似乎是“也许”：

Google 可以索引哪些文件类型？

Google 可以为大多数类型的页面和文件的内容编制索引。查看最常见的文件类型。

但常见文件类型的链接都是文本。

即使你搜索二进制文件，例如 Windows 安装程序 (.msi)，您可能会获得包含该文件的页面的链接或该文件的直接链接，但 Google几乎可以确定根据页面链接周围的内容来决定如何对其进行索引，而不是通过下载和解密二进制文件的内容。

关于你的主要问题，Google 推荐的方法检查机器人是否访问您的网站的方法是使用反向 DNS 查找：

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

请记住Google 的使命“就是将全世界的信息组织起来，使之人人都能访问和使用。”这意味着他们不断创新，尝试以可搜索的方式索引非文本数据。扩展 ceejayoz 的想法，他们昨天没有做并不意味着他们明天不会做：Google 将尽一切努力在明天做到这一点！

Answer

你的第一个问题的答案似乎是“也许”：

Google 可以索引哪些文件类型？

Google 可以为大多数类型的页面和文件的内容编制索引。查看最常见的文件类型。

但常见文件类型的链接都是文本。

即使你搜索二进制文件，例如 Windows 安装程序 (.msi)，您可能会获得包含该文件的页面的链接或该文件的直接链接，但 Google几乎可以确定根据页面链接周围的内容来决定如何对其进行索引，而不是通过下载和解密二进制文件的内容。

关于你的主要问题，Google 推荐的方法检查机器人是否访问您的网站的方法是使用反向 DNS 查找：

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

请记住Google 的使命“就是将全世界的信息组织起来，使之人人都能访问和使用。”这意味着他们不断创新，尝试以可搜索的方式索引非文本数据。扩展 ceejayoz 的想法，他们昨天没有做并不意味着他们明天不会做：Google 将尽一切努力在明天做到这一点！

Question 2

与其猜测，为什么不检查 access_logs 以查看用户代理或请求主机是什么呢？这样，通过添加每个请求的数据流量，您甚至还可以知道 Google（或其他抓取工具）占用了多少带宽。

Answer

与其猜测，为什么不检查 access_logs 以查看用户代理或请求主机是什么呢？这样，通过添加每个请求的数据流量，您甚至还可以知道 Google（或其他抓取工具）占用了多少带宽。

Question 3

我最近注意到我的网络服务器流量出现了异常高峰。查看网络统计数据显示，我的网站上的一小组大型二进制文件已被一组看似相关的 IP 地址快速连续下载。我使用了urlquery.net找出谁拥有这些 IP，结果发现它们全部属于 Google。

我来这里是为了寻找答案，但在阅读其他人的评论时，我意识到 Google 可能正在扫描二进制文件以查找恶意软件，或者至少将它们提交给恶意软件检测服务进行扫描。我们知道 Google 会检测并标记网站上的恶意软件，因此可以合理地假设这样做涉及下载相关文件。

谷歌的“如果你的网站被感染”页面上显示：“使用网站管理员工具中的“以 Google 方式抓取”工具来检测恶意软件”。

还要注意的是，有问题的文件没有出现在 Google 的搜索结果中，大概是因为我使用 robots.txt 禁止索引这些文件。假设我是对的，当 Google 发现从公共网页链接的二进制文件时，它会扫描该文件是否存在恶意软件，而不管 robots.txt 是否允许，但只有在 robots.txt 允许的情况下才会索引该文件。我认为这正是他们应该做的，只要扫描不频繁。

更新：Google 似乎每十天左右就会这样做一次。这会影响我的带宽限制。

Answer