如果我们不知道某个 URL 属于哪个文件夹,那么我们如何知道哪些 URL 可以被抓取,就像 robots.txt 所说的那样?

如果我们不知道某个 URL 属于哪个文件夹,那么我们如何知道哪些 URL 可以被抓取,就像 robots.txt 所说的那样?

我准备编写一个网络爬虫,但在此之前我想知道可以爬取什么。

如果我错了请告诉我,但是在 robots.txt 中网站指示的是文件夹而不是可以和不能抓取的 URL,那么我们如何知道 URL 属于哪个文件夹?

答案1

robots.txt文件排除目录前缀。比如你有一个robots.txt排除目录/foo,那么/foo/bar.html一定不能被抓取。

对于您想要抓取的任何 URL,您必须检查其路径是否与 robots 文件中的某个指令匹配。

查看Google 文档更多信息和示例:

路径值用作确定规则是否适用于网站上的特定 URL 的基础。除通配符外,路径用于匹配 URL 的开头(以及以相同路径开头的任何有效 URL)。

请注意,URL 不必表明实际的服务器上的目录。/download.php?what=thestuff在功能上可以等同于/download/thestuff并指向相同的资源。

相关内容