禁止:robot.txt 中的 /?q=search/

禁止:robot.txt 中的 /?q=search/

/?q=search/ 是否意味着我无法抓取以 =search/ 结尾的搜索网站? 我可以抓取以 =0#search 结尾的 URL 吗?

答案1

首先它是机器人s.txt。接下来,在其中提供某些内容并不意味着您“无法从网页中抓取搜索”。这只是机器人需要遵循的指令。但如果它们愿意,它不会阻止它们抓取这些 URL(即某些恶意网页抓取程序和脚本可能会忽略您的 robots.txt,甚至使用其中的信息来抓取您想要保护的信息)。

回答你的问题,你不能用 robots.txt 指定锚点。这里已经回答了这个问题:https://stackoverflow.com/questions/53676849/robots-txt-handling-a-in-a-url

除了在 r​​obots.txt 中指定指令 Disallow 之外,不包含位置。它只是 URL 中任意位置的子字符串匹配。

相关内容