有时,我只想获取网站的目录结构,但文件本身并不重要。我只想要他们的名字。有点像一面镜子,其中每个条目只是一个空的虚拟文件。
当然,执行wget -r
然后运行一个脚本来清空所有文件效果很好,但感觉很浪费,因为这对服务器和我的带宽都不好。一种更有效但更不优雅的方法是每次遇到大文件时手动停止并重新启动进程,或者设置非常短的超时。至少这大大减少了我必须下载的数据量。
我的问题是:我可以让 wget 只创建文件,而不下载其内容吗?或者我使用了错误的工具来完成这项工作?
答案1
按要求发布答案:
使用该--spider
选项:
wget -r -nv --spider http://example.com
然后您可以从输出中解析站点的结构。这不会下载没有机会包含链接的文件,例如图像。