我需要下载域文件夹中的所有文件https://example.com/folder/subfolder
。子文件夹文件没有唯一增量,这意味着文件名是随机字符串。我想使用 wget 或任何其他方法下载子文件夹中的所有文件。请提供详细信息。
我试过答案这里。它只下载 index.html 文件。我尝试了该答案中的其他选项,使用 --reject 选项,但它没有下载任何内容。
答案1
据我所知,wget
只适用于以下链接:
明确具有标准
href
属性。存在于给定的 HTML 文档中(这是服务器生成的,因此每个技术上可用文件可能并不总是列出以
wget
供下载)。
此外,您可能还应该查看任何原始页面源代码(例如在您的浏览器中)。如果页面使用 JavaScript,您可能运气不佳,因为它wget
不处理 JavaScript。
如果链接在原始 HTML 中列出,但没有标准href
属性,您仍然可以解析页面中的链接,只是不能使用wget
。您可能需要使用 Windows PowerShell 或Python(可能与要求) 和美丽的汤。
请注意,在极少数情况下,如果链接完全由 JavaScript 生成,您甚至可能需要硒在处理文件链接之前保存已完全渲染的页面。Python 有一个硒模块我个人对独立的“Marmaduke”版本(zip文件)的运气很好Woolyss 上的未在 Google 上搜索过的 Chromium用于浏览器自动化。