使用 wget 下载网页引用的文档

使用 wget 下载网页引用的文档

我想用wget下载网页指向的所有文档。

当我运行 wget 时,它只下载网页,而不下载网页链接到的所有内容。

wget --content-disposition -v -S -r -nc -np -Kk -px --ignore-length \
     --content-disposition --proxy-user "XYZ" --proxy-passwd "PASS" \
     --no-check-certificate --load-cookies=cookies.txt --keep-session-cookies \
     'https://www.website.com/link/live?func=lab&objId=174914395&objAction=browse&viewType=1'

Wget 仅下载一页,即https://www.website.com/link/live?func=lab&objId=174914395&objAction=browse&viewType=1.该网页包含:

DataStringToVariables( '( {"currentPageNum":1,"totalPages":1,"totalCount":21,"dbTimeTaken":0,"timeTaken":1,"haveBigImages":"fa lse1","myrows":[{"dataId":"177020845","type2":"184","typeName":"Document","name":"Action_Mar_JKill%2Exls", etc.

有很多 xls、docs、pdf 等,但 wget 不下载它们。我怎样才能下载它们?

答案1

不确定我是否明白你的问题,但无论如何我都会尝试回答。

您从 URL 中得到的是JSONP,但 JSONP 根本不由 wget 处理。wget只是一个下载程序,如手册页中所述wget

GNU Wget 是一个免费实用程序,用于从 Web 上以非交互方式下载文件。

wget不支持对其接收的数据进行任何解析。如果您希望解析数据,请使用另一种编程语言导入并处理此处接收的数据。

假设您正在编写某种 shell 脚本,您可能还希望使用杰索克获取数据。看这个答案举个例子。

解析 JSON(P) 后,您可以继续下载 JSON(P) 数据中列出的文件,扩展名为wget.

相关内容