我目前正在使用网站吸盘下载客户网站的所有文件。它让我下载了大多数页面,但问题是我们拥有的一些页面实际上不是通过链接访问的,而是通过邮政编码查找器访问的。有没有办法我可以使用此工具或其他工具,甚至可以给它一个 URL 列表,然后它会根据需要为我下载文件,保持文件夹结构与 site sucker 非常相似。
如果这里不适合问这个问题,我深感抱歉:)。
答案1
您可以使用 wget:创建一个包含您需要下载的 URL 列表的纯文件(例如 pippo.txt):
pippo.txt:
http://url1.zip
http://url2.htm
http://url3/
ftp://url4/file.zip
然后使用 wget 下载 url 列表:
cd /some/folder/
wget -i /path/to/pippo.txt
完毕
wget 是 Linux 的一个基本工具https://www.gnu.org/software/wget/ 对于 Windows,有一个 bin 端口:http://users.ugent.be/~bpuype/wget/
答案2
如果你有一台 Linux 机器(可能虚拟地虚拟盒),并且根据您要执行的操作,您可能需要查看一下wget
。
使用该-r
选项,您可以执行诸如网站递归获取之类的操作。
你可以这样做:
wget -r http://website/page?postcode=1234
wget -r http://website/page?postcode=5678
易于编写脚本/Excel。
答案3
我已经为 Chrome 编写了一个浏览器扩展程序来实现这一点,使用 Google Chrome 的下载 API,它可以在所有平台(操作系统)上运行,即 Windows/Mac/Linux :-)
它被称为 TabSave,最初就是为了这个目的,我添加了一项功能,让研究人员可以直接从浏览器为 PDF 提供标题,但它非常轻巧,如果方便的话,可以从打开的选项卡中抓取。
您可以在此处获取扩展,并且所有代码都在 GitHub 上开源这里。
如果您想尝试不同的方向,请随意分叉 :-)
答案4
在适用于 Windows 和 Mac 的 A1 Website Download 中,您可以通过两种方式解决此问题:
a) 配置它以浏览 HTML 表单(例如下拉菜单)。唯一需要注意的是,在大型表单中,选项组合可能会产生数百万个唯一的 URL。
b) 在开始下载之前,通过导入 URL 列表来启动爬网。