问题概述
我正在尝试从以下地址创建所有文件(100 个)的列表(并可能下载):https://eba.europa.eu/regulation-and-policy
我每周都会在工作中使用它来识别网站上的变化或新项目。
为每个文件手动执行此操作的 5 次点击如下:
- https://eba.europa.eu/
- https://eba.europa.eu/regulation-and-policy
- https://eba.europa.eu/regulation-and-policy/accounting-and-auditing
- https://eba.europa.eu/regulation-and-policy/accounting-and-auditing/rts-on-methods-of-prudential-consolidation
- https://eba.europa.eu/sites/default/documents/files/documents/10180/2019694/3b8e5188-f7e3-4d11-b9ae-256e47d61e4b/Consultation%20Paper%20on%20RTS%20on%20methods%20of%20prudential%20consolidation%20%28EBA-CP-2017-20%29.pdf
研究
我已经搜索了代码和插件。
我尝试过的方法
我尝试过通过 Firefox 和 Google Chrome 以及 Python 脚本使用多个插件,但是,我只成功下载了文件,而无法生成带有其属性的文件列表(如果可用,则为空白),例如主题、状态、日期、文件链接等。
我曾见过软件开发人员这样做,所以我知道这是可以做到的。如果您能帮忙,我将不胜感激,感谢您的关注!
答案1
Wget 和 httrack 可用于对给定的文件、扩展名、链接深度等执行网站剥离。我只将 wget 用于此目的,尽管它不是严格意义上的网络抓取工具。
wget -P [download dir] -pkr -ln [URL] - Download URL and recurse pages to link depth n and convert all links to relative filesystem.
wget -r -l4 -spider -D [URLs] [URL] - Recursively spider URL to link depth 4 restricting recursion to listed URLs.
网上有一些不错的 wget 指南。
httrack 是从 Debian 或基于 Debian 的 repos 安装的。