如果我们不知道某个 URL 属于哪个文件夹，那么我们如何知道哪些 URL 可以被抓取，就像 robots.txt 所说的那样？

Question

该robots.txt文件排除目录前缀。比如你有一个robots.txt排除目录/foo，那么/foo/bar.html一定不能被抓取。

对于您想要抓取的任何 URL，您必须检查其路径是否与 robots 文件中的某个指令匹配。

查看Google 文档更多信息和示例：

路径值用作确定规则是否适用于网站上的特定 URL 的基础。除通配符外，路径用于匹配 URL 的开头（以及以相同路径开头的任何有效 URL）。

请注意，URL 不必表明实际的服务器上的目录。/download.php?what=thestuff在功能上可以等同于/download/thestuff并指向相同的资源。

Answer 1

该robots.txt文件排除目录前缀。比如你有一个robots.txt排除目录/foo，那么/foo/bar.html一定不能被抓取。

对于您想要抓取的任何 URL，您必须检查其路径是否与 robots 文件中的某个指令匹配。

查看Google 文档更多信息和示例：

路径值用作确定规则是否适用于网站上的特定 URL 的基础。除通配符外，路径用于匹配 URL 的开头（以及以相同路径开头的任何有效 URL）。

请注意，URL 不必表明实际的服务器上的目录。/download.php?what=thestuff在功能上可以等同于/download/thestuff并指向相同的资源。

相关内容