我正在使用 wget 从我无法控制的 Web 服务器复制目录结构。我不关心这个网页上每个资源的内容,我只想创建目录和文件来镜像网络服务器的结构。基本上创建很多包含很多文件的目录,文件尽可能为空(每个文件几个字节没有问题)。
可以使用 wget 来完成吗?
答案1
我使用解决方法解决了它。在一个终端中使用镜像通过 wget 下载,然后在第二个终端中运行这个 oneliner
while true ; do date; time find /tmp/test/ -type f -exec cp /dev/null {} \; ; sleep 36000; done
这会清空所有现有文件,然后暂停十个小时并再次运行。对于我的目的来说“足够好”。
答案2
根据wget
的手册页 --mirror 就是您正在寻找的:
--mirror
Turn on options suitable for mirroring. This option turns on
recursion and time-stamping, sets infinite recursion depth and
keeps FTP directory listings. It is currently equivalent to -r -N
-l inf --no-remove-listing.
答案3
这样的事情对你有用吗?
wget --spider -r --no-parent http://your.url.com/
答案4
我有同样的问题,使用wget -O - 'URL'
它会自动删除空文件,您的问题将得到解决
wget -O - 'http://www.google.com'
-O
下载输出文件-
删除该文件