如何下载种子内一层或两层页面引用的pdf文件

如何下载种子内一层或两层页面引用的pdf文件

我有一个 URL 列表,它们都是这样的:http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225;这些页面内引用了 .pdf 文件。我需要使用 wget 或 curl 下载这些文件。

我尝试这样做:

wget -r http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 -l2 --accept .pdf

wget -r -l1 --no-parent -A ".pdf" http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225  

但我收到协议错误:

正在解析 www.contratos.gov.co (www.contratos.gov.co)... 201.234.78.2 连接到 www.contratos.gov.co (www.contratos.gov.co)|201.234.78.2|:80.. 。 连接的。 HTTP 请求已发送,正在等待响应... 200 OK 长度:未指定 [text/html] www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225:协议错误

无法写入“www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225”(协议错误)

我可以使用哪些标志来命令 wget 解析 URL,然后下载初始页面内链接的 pdf 文件?

答案1

Wget 和 Curl 仅解析 HTML 文档上锚标记内的链接。
您所引用的页面使用 POST 方法以及文档链接来下载它。

您必须下载该文件并手动解析所有链接。这是 wget 不会为你做的事情。

编辑:但是我不知道为什么您收到协议错误。您介意使用 --debug 选项运行相同的命令并将输出粘贴到我们可以看到的地方吗?

相关内容