我一直在使用 Wget,但遇到了一个问题。我有一个网站,里面有多个文件夹和子文件夹。我需要下载每个文件夹和子文件夹中的所有内容。我尝试了几种使用 Wget 的方法,当我检查完成情况时,我在文件夹中看到的只是一个“索引”文件。我可以单击索引文件,它会带我到文件,但我需要实际的文件。
是否有人有我忽略的 Wget 命令,或者是否有其他程序可以用来获取所有这些信息?
站点示例:
www.mysite.com/Pictures/ 在 Pictures DIr 内,有几个文件夹.....
www.mysite.com/图片/会计/
www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg
我需要所有文件、文件夹等......
答案1
我想假设你还没有尝试过这个:
wget -r --no-parent http://www.mysite.com/Pictures/
或者检索内容,而不下载“index.html”文件:
wget -r --no-parent --reject "index.html*" http://www.mysite.com/Pictures/
答案2
我用wget -rkpN -e robots=off http://www.example.com/
-r
表示递归
-k
表示转换链接。因此网页上的链接将是 localhost,而不是 example.com/bla
-p
表示获取所有网页资源,从而获取图片和javascript文件以使网站正常运行。
-N
用于检索时间戳,因此如果本地文件比远程网站上的文件新,则跳过它们。
-e
是一个标志选项,它需要存在才能robots=off
工作。
robots=off
表示忽略 robots 文件。
我也在-c
这个命令中,所以如果连接断开,当我重新运行命令时,它会继续从中断的地方继续。我想-N
会很好-c
答案3
wget -m -A * -pk -e robots=off www.mysite.com/ 这将在本地下载所有类型的文件并从 html 文件指向它们
,并且它将忽略 robots 文件