Googlebot 可以从 Apache 索引 / 花式索引站点抓取或拉取 URL / URI 吗?

Googlebot 可以从 Apache 索引 / 花式索引站点抓取或拉取 URL / URI 吗?

就是这样,这就是我想要知道的全部。 - 我在 Google 上搜索过,它甚至没有提到这种情况(使用 Apache 索引/花哨的索引布局抓取网站);但我知道我可以将蜘蛛发送到一个网站并找到各种未链接的东西,那么 Googlebot 可以对像我的网站 [insurgent.info] 做同样的事情吗?

答案1

Googlebot 可以从 Apache 索引/花式索引站点抓取或提取 URL/URI 吗?

是的。

我在 Google 上进行了搜索,但甚至没有提到这种情况(使用 Apache 索引/花式索引布局抓取网站)。

可能是因为真的没有什么值得一提的事情。=)

无法解析部分或全部页面的情况通常只发生在 JavaScript 中,因为除 Google 外,大多数网络爬虫都不会执行 JavaScript 代码。Apache 将索引(即使是花哨的版本)返回为简单的 HTML 页面(无 JavaScript)。

可能会有关于搜索引擎优化仅索引网站,但可能就是这样。话虽如此,谷歌搜索“火狐 FTP“返回https://ftp.mozilla.org/pub/firefox/releases/作为其第一个结果。

我知道我可以发送一个蜘蛛到一个站点并找到各种未链接的东西......

蜘蛛(或其他)通常访问的所有内容都链接为 URL/URI某处在被解析的页面的代码中(即使对于“普通”访问者来说是不可见的)。

唯一的例外可能是:

  • 需要 JavaScript 才能访问的链接(例如延迟加载),更高级的机器人有时可以执行这些操作,至少与无头浏览器结合使用时。

  • 基于暴力 URL 猜测的链接(最常由恶意脚本/工具等实施)。

  • 由于某些服务器配置错误或安全漏洞而错误创建的链接,导致文件位于 Web 根目录之外。

... 那么 Googlebot 可以对像我这样的网站做同样的事情吗?

关于 Apache 索引/花哨的索引页,Googlebot 可以索引普通(甚至是精明的)访问者可以访问的所有内容。

相关内容