网页抓取/爬取所有文件(可公开获取)的列表,而不是从主页开始逐个查找每个文件 5 个时钟

网页抓取/爬取所有文件(可公开获取)的列表,而不是从主页开始逐个查找每个文件 5 个时钟

问题概述

我正在尝试从以下地址创建所有文件(100 个)的列表(并可能下载):https://eba.europa.eu/regulation-and-policy

我每周都会在工作中使用它来识别网站上的变化或新项目。

为每个文件手动执行此操作的 5 次点击如下:

研究

我已经搜索了代码和插件。

我尝试过的方法

我尝试过通过 Firefox 和 Google Chrome 以及 Python 脚本使用多个插件,但是,我只成功下载了文件,而无法生成带有其属性的文件列表(如果可用,则为空白),例如主题、状态、日期、文件链接等。

我曾见过软件开发人员这样做,所以我知道这是可以做到的。如果您能帮忙,我将不胜感激,感谢您的关注!

答案1

Wget 和 httrack 可用于对给定的文件、扩展名、链接深度等执行网站剥离。我只将 wget 用于此目的,尽管它不是严格意义上的网络抓取工具。

wget -P [download dir] -pkr -ln [URL] - Download URL and recurse pages to link depth n and convert all links to relative filesystem.

wget -r -l4 -spider -D [URLs] [URL] - Recursively spider URL to link depth 4 restricting recursion to listed URLs.

网上有一些不错的 wget 指南。

httrack 是从 Debian 或基于 Debian 的 repos 安装的。

相关内容