我正在使用此命令来镜像我的服务器上的目录树:
wget -m -e robots=off --no-parent --reject-regex index.html --reject-regex aaa --no-verbose --timestamp https://example.com/folders/
“文件夹”目录中有一个.htaccess
包含Options +Indexes
指令的文件。
但是,对于每个目录,它都会创建一个index.html
文件来反映服务器生成的显示该目录索引的页面。
由于它实际上不是一个文件,因此没有修改时间戳标头。我想阻止 wget 创建index.html
文件。使用--reject-regex index.html
不起作用。
答案1
看起来你遇到了与 Wget 帖子中相同的问题
我如何阻止 wget 创建 index.html?C=M;O=A?
所有答案都说这些文件是不可避免的,并且是 wget 工作方式的结果 - 这些文件包含要从每个(子)文件夹中检索的文件列表。
建议的解决方法是,在整个文件夹树的下载完成后删除这些文件,而不是首先阻止它们的创建。
建议的命令示例如下:
find /mirrór/tree -name "*C=[DMNS];O=[AD]" -exec rm -f "{}" \;