我准备编写一个网络爬虫,但在此之前我想知道可以爬取什么。
如果我错了请告诉我,但是在 robots.txt 中网站指示的是文件夹而不是可以和不能抓取的 URL,那么我们如何知道 URL 属于哪个文件夹?
答案1
该robots.txt
文件排除目录前缀。比如你有一个robots.txt
排除目录/foo
,那么/foo/bar.html
一定不能被抓取。
对于您想要抓取的任何 URL,您必须检查其路径是否与 robots 文件中的某个指令匹配。
查看Google 文档更多信息和示例:
路径值用作确定规则是否适用于网站上的特定 URL 的基础。除通配符外,路径用于匹配 URL 的开头(以及以相同路径开头的任何有效 URL)。
请注意,URL 不必表明实际的服务器上的目录。/download.php?what=thestuff
在功能上可以等同于/download/thestuff
并指向相同的资源。