通过 URL 列表下载网页?

通过 URL 列表下载网页?

我目前正在使用网站吸盘下载客户网站的所有文件。它让我下载了大多数页面,但问题是我们拥有的一些页面实际上不是通过链接访问的,而是通过邮政编码查找器访问的。有没有办法我可以使用此工具或其他工具,甚至可以给它一个 URL 列表,然后它会根据需要为我下载文件,保持文件夹结构与 site sucker 非常相似。

如果这里不适合问这个问题,我深感抱歉:)。

答案1

您可以使用 wget:创建一个包含您需要下载的 URL 列表的纯文件(例如 pippo.txt):

pippo.txt:

http://url1.zip
http://url2.htm
http://url3/
ftp://url4/file.zip

然后使用 wget 下载 url 列表:

cd /some/folder/
wget -i /path/to/pippo.txt

完毕

wget 是 Linux 的一个基本工具https://www.gnu.org/software/wget/ 对于 Windows,有一个 bin 端口:http://users.ugent.be/~bpuype/wget/

答案2

如果你有一台 Linux 机器(可能虚拟地虚拟盒),并且根据您要执行的操作,您可能需要查看一下wget

使用该-r选项,您可以执行诸如网站递归获取之类的操作。

你可以这样做:

wget -r http://website/page?postcode=1234
wget -r http://website/page?postcode=5678

易于编写脚本/Excel。

答案3

我已经为 Chrome 编写了一个浏览器扩展程序来实现这一点,使用 Google Chrome 的下载 API,它可以在所有平台(操作系统)上运行,即 Windows/Mac/Linux :-)

它被称为 TabSave,最初就是为了这个目的,我添加了一项功能,让研究人员可以直接从浏览器为 PDF 提供标题,但它非常轻巧,如果方便的话,可以从打开的选项卡中抓取。

您可以在此处获取扩展,并且所有代码都在 GitHub 上开源这里

如果您想尝试不同的方向,请随意分叉 :-)

答案4

在适用于 Windows 和 Mac 的 A1 Website Download 中,您可以通过两种方式解决此问题:

a) 配置它以浏览 HTML 表单(例如下拉菜单)。唯一需要注意的是,在大型表单中,选项组合可能会产生数百万个唯一的 URL。

b) 在开始下载之前,通过导入 URL 列表来启动爬网。

相关内容