如何使用 wget 下载文件夹中的所有文件

如何使用 wget 下载文件夹中的所有文件

我需要下载域文件夹中的所有文件https://example.com/folder/subfolder。子文件夹文件没有唯一增量,这意味着文件名是随机字符串。我想使用 wget 或任何其他方法下载子文件夹中的所有文件。请提供详细信息。

我试过答案这里。它只下载 index.html 文件。我尝试了该答案中的其他选项,使用 --reject 选项,但它没有下载任何内容。

答案1

据我所知,wget只适用于以下链接:

  • 明确具有标准href属性。

  • 存在于给定的 HTML 文档中(这是服务器生成的,因此每个技术上可用文件可能并不总是列出以wget供下载)。

此外,您可能还应该查看任何原始页面源代码(例如在您的浏览器中)。如果页面使用 JavaScript,您可能运气不佳,因为它wget不处理 JavaScript。

如果链接在原始 HTML 中列出,但没有标准href属性,您仍然可以解析页面中的链接,只是不能使用wget。您可能需要使用 Windows PowerShell 或Python(可能与要求) 和美丽的汤


请注意,在极少数情况下,如果链接完全由 JavaScript 生成,您甚至可能需要在处理文件链接之前保存已完全渲染的页面。Python 有一个硒模块我个人对独立的“Marmaduke”版本(zip文件)的运气很好Woolyss 上的未在 Google 上搜索过的 Chromium用于浏览器自动化。

相关内容