我红这答案很好,而且运行良好。但我需要更多有关此的信息。
上述解决方案中提供的命令无法下载一些未在网页上显示的 PDF 文件。
假设 U1 为基准 URL,U1/pdf1和U1/pdf2是两个 pdf 文件的链接。
但假设第二个链接是隐藏的(无法从网页访问)并且只有知道链接才能访问。
解决方案中的命令可以获取 pdf1,但无法获取 pdf2。如何使用 ubuntu 下载 pdf2?
答案1
可以使用wget
以下命令下载 PDF:
wget -c pdf_url_link_here
如果你想一次性从多个网站下载所有可用的 PDF 文件,请创建一个带有网站名称的文本文件(website_list),就像我创建了一个文件并播放下面提到的单行脚本一样
wget -c $(for website in $(cat websites_list); do lynx -cache=0 -dump -listonly "$website" | awk '/.pdf$/{print $2}';done)