我正在尝试镜像一个网站并包含指向共享点 pdf 的外部文件。
另外,wget 是否会自动下载子域,例如,如果我想下载 stackexchange.com,它将下载所有 xxxx.stackexchange.com?
答案1
来自 wget 联机帮助页:
Wget 可以跟踪 HTML、XHTML 和 CSS 页面中的链接,创建远程网站的本地版本,完全重新创建原始站点的目录结构。这有时称为“递归下载”。在此过程中,Wget 遵守机器人排除标准 (/robots.txt)。可以指示 Wget 将下载文件中的链接转换为指向本地文件,以供离线查看。
由此可以推断,如果子域将其文件放置在域的子目录中,或者域中的页面链接到子域,则您可能会下载几乎所有内容。
几乎因为,如果网站维护得当,由于 robots.txt,一些文件应该无法访问。
顺便说一句,我个人更愿意请求许可才能继续,并且可能会利用一些 sftp 访问权限。
当然,您知道网站的页面很可能是由某些服务器脚本动态生成的,使用某些服务器数据库中的任何数据。所有此类内容都不会被下载。
由于现在这种情况很可能发生,所以你实际上不能正式期望镜像环网站就是这样。