通过 URL 列表下载网页？

Question 1

您可以使用 wget：创建一个包含您需要下载的 URL 列表的纯文件（例如 pippo.txt）：

pippo.txt：

http://url1.zip
http://url2.htm
http://url3/
ftp://url4/file.zip

然后使用 wget 下载 url 列表：

cd /some/folder/
wget -i /path/to/pippo.txt

完毕

wget 是 Linux 的一个基本工具https://www.gnu.org/software/wget/ 对于 Windows，有一个 bin 端口：http://users.ugent.be/~bpuype/wget/

Answer

您可以使用 wget：创建一个包含您需要下载的 URL 列表的纯文件（例如 pippo.txt）：

pippo.txt：

http://url1.zip
http://url2.htm
http://url3/
ftp://url4/file.zip

然后使用 wget 下载 url 列表：

cd /some/folder/
wget -i /path/to/pippo.txt

完毕

wget 是 Linux 的一个基本工具https://www.gnu.org/software/wget/ 对于 Windows，有一个 bin 端口：http://users.ugent.be/~bpuype/wget/

Question 2

如果你有一台 Linux 机器（可能虚拟地虚拟盒)，并且根据您要执行的操作，您可能需要查看一下wget。

使用该-r选项，您可以执行诸如网站递归获取之类的操作。

你可以这样做：

wget -r http://website/page?postcode=1234
wget -r http://website/page?postcode=5678

易于编写脚本/Excel。

Answer

如果你有一台 Linux 机器（可能虚拟地虚拟盒)，并且根据您要执行的操作，您可能需要查看一下wget。

使用该-r选项，您可以执行诸如网站递归获取之类的操作。

你可以这样做：

wget -r http://website/page?postcode=1234
wget -r http://website/page?postcode=5678

易于编写脚本/Excel。

Question 3

我已经为 Chrome 编写了一个浏览器扩展程序来实现这一点，使用 Google Chrome 的下载 API，它可以在所有平台（操作系统）上运行，即 Windows/Mac/Linux :-)

它被称为 TabSave，最初就是为了这个目的，我添加了一项功能，让研究人员可以直接从浏览器为 PDF 提供标题，但它非常轻巧，如果方便的话，可以从打开的选项卡中抓取。

您可以在此处获取扩展，并且所有代码都在 GitHub 上开源这里。

如果您想尝试不同的方向，请随意分叉 :-)

Answer

我已经为 Chrome 编写了一个浏览器扩展程序来实现这一点，使用 Google Chrome 的下载 API，它可以在所有平台（操作系统）上运行，即 Windows/Mac/Linux :-)

它被称为 TabSave，最初就是为了这个目的，我添加了一项功能，让研究人员可以直接从浏览器为 PDF 提供标题，但它非常轻巧，如果方便的话，可以从打开的选项卡中抓取。

您可以在此处获取扩展，并且所有代码都在 GitHub 上开源这里。

如果您想尝试不同的方向，请随意分叉 :-)

Question 4

在适用于 Windows 和 Mac 的 A1 Website Download 中，您可以通过两种方式解决此问题：

a) 配置它以浏览 HTML 表单（例如下拉菜单）。唯一需要注意的是，在大型表单中，选项组合可能会产生数百万个唯一的 URL。

b) 在开始下载之前，通过导入 URL 列表来启动爬网。

Answer

在适用于 Windows 和 Mac 的 A1 Website Download 中，您可以通过两种方式解决此问题：

a) 配置它以浏览 HTML 表单（例如下拉菜单）。唯一需要注意的是，在大型表单中，选项组合可能会产生数百万个唯一的 URL。

b) 在开始下载之前，通过导入 URL 列表来启动爬网。

相关内容