我想构建一个工具来扫描网站的所有 URL,但不是页面内的 URL,而是网站本身的 URL,但我不知道该怎么做。有人能给我举个例子说明如何开始吗?
例如:www.localhost.dev
/upload /login /impress
并非每个页面都必须链接到该域的另一个页面。仅扫描 html 是没有用的。或者另一个例子,我想生成一个 sitemap.xml。
谢谢
答案1
您真正想要实现什么?
您根本无法通过 HTTP 执行此操作。鉴于 HTTP 服务器中没有漏洞,除非您已经知道直接路径,否则您将获得内容提供商发布的内容。这里唯一的选择是内容爬虫。
考虑到这一点,您的另一个选择是在文件系统级别对网站进行索引。您将需要做大量工作来分析文件,因为很可能有大量文件未转换为服务器上的 URL。
答案2
据我所知这是不可能的。有时管理员会打开目录索引,但任何包含 index.html 页面的目录都只会显示 HTML 页面,而不是目录索引。