从给定的 URL 下载所有 pdf

从给定的 URL 下载所有 pdf

我红答案很好,而且运行良好。但我需要更多有关此的信息。

上述解决方案中提供的命令无法下载一些未在网页上显示的 PDF 文件。

假设 U1 为基准 URL,U1/pdf1U1/pdf2是两个 pdf 文件的链接。

但假设第二个链接是隐藏的(无法从网页访问)并且只有知道链接才能访问。

解决方案中的命令可以获取 pdf1,但无法获取 pdf2。如何使用 ubuntu 下载 pdf2?

答案1

可以使用wget以下命令下载 PDF:

wget -c pdf_url_link_here 

如果你想一次性从多个网站下载所有可用的 PDF 文件,请创建一个带有网站名称的文本文件(website_list),就像我创建了一个文件并播放下面提到的单行脚本一样

wget -c $(for website in $(cat websites_list); do     lynx -cache=0 -dump -listonly "$website" | awk '/.pdf$/{print $2}';done) 

相关内容