我正在使用 wget 从中检索特定的 pdf 文件http://www.aph.gov.au/
我只想检索 Hansard 文件(法庭诉讼记录)。
两种情况:
- 有一个页面列出了 Hansard 的记录:
http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011
单击此页面上的日期/日期链接将检索对数据库查询的响应,该查询显示指向其他文件的链接。我只想检索“下载当前 Hansard”指示的文件,即全天的记录(我不想检索“片段”)。
我可以单击查询的响应,收集全天记录的 URL,将它们打包在一个文件中,然后使用 wget -i 检索它们。
我正在寻找一种使用 wget 来获取全天成绩单的方法。
- 页面上只列出了部分年份。但是,进入数据库并对 Hansard 进行高级搜索,然后单击屏幕左上角的十年范围,然后单击年份,就会列出该年份的不同日期。同样,显示的顶级链接不会产生全天记录的 PDF,但单击标题会显示一个页面,其中显示了全天记录的链接。
我想使用 wget 来检索全天成绩单的 pdf。
任何建议都将不胜感激。我正在使用“半手动”方法取得进展,但它很慢而且劳动强度大。
答案1
您将无法仅使用 来执行此操作wget
。
您需要创建一个脚本,该脚本将抓取带有日期链接的第一页,然后解析该页面以获取正确的 URL。然后该脚本将抓取该 URL 处的页面并将其解析为 PDF 的 URL。
这可以使用自定义 Python 脚本来完成,该脚本使用美丽的汤图书馆。