wget——从在线数据库检索 pdf 文件

2024-6-17 • tag-icon

我正在使用 wget 从中检索特定的 pdf 文件http://www.aph.gov.au/

我只想检索 Hansard 文件（法庭诉讼记录）。

两种情况：

单击此页面上的日期/日期链接将检索对数据库查询的响应，该查询显示指向其他文件的链接。我只想检索“下载当前 Hansard”指示的文件，即全天的记录（我不想检索“片段”）。

我可以单击查询的响应，收集全天记录的 URL，将它们打包在一个文件中，然后使用 wget -i 检索它们。

我正在寻找一种使用 wget 来获取全天成绩单的方法。

页面上只列出了部分年份。但是，进入数据库并对 Hansard 进行高级搜索，然后单击屏幕左上角的十年范围，然后单击年份，就会列出该年份的不同日期。同样，显示的顶级链接不会产生全天记录的 PDF，但单击标题会显示一个页面，其中显示了全天记录的链接。

我想使用 wget 来检索全天成绩单的 pdf。

任何建议都将不胜感激。我正在使用“半手动”方法取得进展，但它很慢而且劳动强度大。

您将无法仅使用来执行此操作wget。

您需要创建一个脚本，该脚本将抓取带有日期链接的第一页，然后解析该页面以获取正确的 URL。然后该脚本将抓取该 URL 处的页面并将其解析为 PDF 的 URL。

这可以使用自定义 Python 脚本来完成，该脚本使用美丽的汤图书馆。

相关内容