我有一个网页,其中包含文档的链接。我可以使用以下命令下载该文档:
wget -r -A.doc www.website.com/1.doc
但是,我想提供包含该文档的页面的链接,以及wget
扫描该文档链接并下载它的链接。
有没有办法用来wget
扫描文档类型的特定链接?
答案1
像这样的东西可能会起作用 -
wget -r -l 2 -A doc,docx,odt http://example.com/page-to-scan.html
递归获取页面http://example.com/page-to-scan.html并点击该页面上的所有链接,并引入下一个级别的所有内容。然后扔掉任何不以 .doc、.docx 或 .odt 结尾的内容(您提到了文档,所以这些是 3 种类型 - MS 旧版、MS 当前版和 Open|Libre Office)