我怎样才能递归地爬取文件服务器中的所有文件

我怎样才能递归地爬取文件服务器中的所有文件

文件服务器中有数千个文件http://xxxx.com

我尝试使用工具进行爬取httrack

它不起作用,是否有任何替代工具可以根据网络网址递归下载整个文件?

谢谢

在此处输入图片描述

答案1

使用 wget:

wget --mirror -p --html-extension --convert-links www.example.com

选项解释:

-p                  get all images, etc. needed to display HTML page.  
--mirror            turns on recursion and time-stamping, sets infinite 
                      recursion depth and keeps FTP directory listings
--html-extension    save HTML docs with .html extensions  
--convert-links     make links in downloaded HTML point to local files. 

相关内容