使用 Wget 下载所有文件夹、子文件夹和文件

使用 Wget 下载所有文件夹、子文件夹和文件

我一直在使用 Wget,但遇到了一个问题。我有一个网站,里面有多个文件夹和子文件夹。我需要下载每个文件夹和子文件夹中的所有内容。我尝试了几种使用 Wget 的方法,当我检查完成情况时,我在文件夹中看到的只是一个“索引”文件。我可以单击索引文件,它会带我到文件,但我需要实际的文件。

是否有人有我忽略的 Wget 命令,或者是否有其他程序可以用来获取所有这些信息?

站点示例:

www.mysite.com/Pictures/ 在 Pictures DIr 内,有几个文件夹.....

www.mysite.com/图片/会计/

www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg

我需要所有文件、文件夹等......

答案1

我想假设你还没有尝试过这个:

wget -r --no-parent http://www.mysite.com/Pictures/

或者检索内容,而不下载“index.html”文件:

wget -r --no-parent --reject "index.html*" http://www.mysite.com/Pictures/

参考:使用 wget 递归获取包含任意文件的目录

答案2

我用wget -rkpN -e robots=off http://www.example.com/

-r表示递归

-k表示转换链接。因此网页上的链接将是 localhost,而不是 example.com/bla

-p表示获取所有网页资源,从而获取图片和javascript文件以使网站正常运行。

-N用于检索时间戳,因此如果本地文件比远程网站上的文件新,则跳过它们。

-e是一个标志选项,它需要存在才能robots=off工作。

robots=off表示忽略 robots 文件。

我也在-c这个命令中,所以如果连接断开,当我重新运行命令时,它会继续从中断的地方继续。我想-N会很好-c

答案3

wget -m -A * -pk -e robots=off www.mysite.com/ 这将在本地下载所有类型的文件并从 html 文件指向它们
,并且它将忽略 robots 文件

相关内容