如何使用 wget 从网页下载文档

如何使用 wget 从网页下载文档

我有一个网页,其中包含文档的链接。我可以使用以下命令下载该文档:

wget -r -A.doc www.website.com/1.doc

但是,我想提供包含该文档的页面的链接,以及wget扫描该文档链接并下载它的链接。

有没有办法用来wget扫描文档类型的特定链接?

答案1

像这样的东西可能会起作用 -

wget -r -l 2 -A doc,docx,odt http://example.com/page-to-scan.html

递归获取页面http://example.com/page-to-scan.html并点击该页面上的所有链接,并引入下一个级别的所有内容。然后扔掉任何不以 .doc、.docx 或 .odt 结尾的内容(您提到了文档,所以这些是 3 种类型 - MS 旧版、MS 当前版和 Open|Libre Office)

相关内容