网页抓取/爬取所有文件（可公开获取）的列表，而不是从主页开始逐个查找每个文件 5 个时钟

Question

Wget 和 httrack 可用于对给定的文件、扩展名、链接深度等执行网站剥离。我只将 wget 用于此目的，尽管它不是严格意义上的网络抓取工具。

wget -P [download dir] -pkr -ln [URL] - Download URL and recurse pages to link depth n and convert all links to relative filesystem.

wget -r -l4 -spider -D [URLs] [URL] - Recursively spider URL to link depth 4 restricting recursion to listed URLs.

网上有一些不错的 wget 指南。

httrack 是从 Debian 或基于 Debian 的 repos 安装的。

Answer 1

Wget 和 httrack 可用于对给定的文件、扩展名、链接深度等执行网站剥离。我只将 wget 用于此目的，尽管它不是严格意义上的网络抓取工具。

wget -P [download dir] -pkr -ln [URL] - Download URL and recurse pages to link depth n and convert all links to relative filesystem.

wget -r -l4 -spider -D [URLs] [URL] - Recursively spider URL to link depth 4 restricting recursion to listed URLs.

网上有一些不错的 wget 指南。

httrack 是从 Debian 或基于 Debian 的 repos 安装的。

网页抓取/爬取所有文件（可公开获取）的列表，而不是从主页开始逐个查找每个文件 5 个时钟

问题概述

研究

我尝试过的方法

答案1

相关内容