为什么 wget 在镜像此站点时无法获取所有页面

Question 1

Javascript 由浏览器呈现。wget它完全按照预期执行操作，获取内容。浏览器最初也会执行相同的操作。它们获取的内容与您上面发布的内容完全相同。但随后它会呈现部分内容Javascript并构建链接。wget无法做到这一点。因此，您无法仅使用 wget 获取动态生成的链接。您可以尝试类似幻影JS尽管。

Answer

Javascript 由浏览器呈现。wget它完全按照预期执行操作，获取内容。浏览器最初也会执行相同的操作。它们获取的内容与您上面发布的内容完全相同。但随后它会呈现部分内容Javascript并构建链接。wget无法做到这一点。因此，您无法仅使用 wget 获取动态生成的链接。您可以尝试类似幻影JS尽管。

Question 2

如前所述，wget 无法生成使用客户端 JavaScript 代码的页面。如果你了解 Python 编程的基础知识，我建议使用 Python 库刮擦用于抓取网站，包括硒，它能够使用外部浏览器生成动态页面。您可以使用少量 Python 代码完成所有这些操作。例如，请参阅代码片段集合。

Answer

如前所述，wget 无法生成使用客户端 JavaScript 代码的页面。如果你了解 Python 编程的基础知识，我建议使用 Python 库刮擦用于抓取网站，包括硒，它能够使用外部浏览器生成动态页面。您可以使用少量 Python 代码完成所有这些操作。例如，请参阅代码片段集合。

为什么 wget 在镜像此站点时无法获取所有页面

答案1

答案2

相关内容