谷歌的网络爬虫会下载二进制文件吗?

谷歌的网络爬虫会下载二进制文件吗?

我的 Google-fu 现在让我失望了。

我想知道 Google 的网络爬虫在抓取网站时是否会下载非图像二进制文件。我知道它会下载(并索引)图像和 PDF,但 .zip、.dmg 等呢?

我的客户在他们的网站上提供了很多可供下载的软件包,他们试图弄清楚搜索引擎是否占用了这些文件的大部分带宽。

答案1

你的第一个问题的答案似乎是“也许”:

Google 可以索引哪些文件类型?

Google 可以为大多数类型的页面和文件的内容编制索引。查看最常见的文件类型。

但常见文件类型的链接都是文本。

即使你搜索二进制文件,例如 Windows 安装程序 (.msi),您可能会获得包含该文件的页面的链接或该文件的直接链接,但 Google几乎可以确定根据页面链接周围的内容来决定如何对其进行索引,而不是通过下载和解密二进制文件的内容。

关于你的主要问题Google 推荐的方法检查机器人是否访问您的网站的方法是使用反向 DNS 查找:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

请记住Google 的使命“就是将全世界的信息组织起来,使之人人都能访问和使用。”这意味着他们不断创新,尝试以可搜索的方式索引非文本数据。扩展 ceejayoz 的想法,他们昨天没有做并不意味着他们明天不会做:Google 将尽一切努力在明天做到这一点!

答案2

与其猜测,为什么不检查 access_logs 以查看用户代理或请求主机是什么呢?这样,通过添加每个请求的数据流量,您甚至还可以知道 Google(或其他抓取工具)占用了多少带宽。

答案3

我最近注意到我的网络服务器流量出现了异常高峰。查看网络统计数据显示,我的网站上的一小组大型二进制文件已被一组看似相关的 IP 地址快速连续下载。我使用了urlquery.net找出谁拥有这些 IP,结果发现它们全部属于 Google。

我来这里是为了寻找答案,但在阅读其他人的评论时,我意识到 Google 可能正在扫描二进制文件以查找恶意软件,或者至少将它们提交给恶意软件检测服务进行扫描。我们知道 Google 会检测并标记网站上的恶意软件,因此可以合理地假设这样做涉及下载相关文件。

谷歌的“如果你的网站被感染”页面上显示:“使用网站管理员工具中的“以 Google 方式抓取”工具来检测恶意软件”。

还要注意的是,有问题的文件没有出现在 Google 的搜索结果中,大概是因为我使用 robots.txt 禁止索引这些文件。假设我是对的,当 Google 发现从公共网页链接的二进制文件时,它会扫描该文件是否存在恶意软件,而不管 robots.txt 是否允许,但只有在 robots.txt 允许的情况下才会索引该文件。我认为这正是他们应该做的,只要扫描不频繁。

更新:Google 似乎每十天左右就会这样做一次。这会影响我的带宽限制。

相关内容