我如何才能下载一个网站及其引用的链接,但仅此而已?

我如何才能下载一个网站及其引用的链接,但仅此而已?

我在这里有一个链接列表:https://docs.oracle.com/javase/tutorial/reallybigindex.html

我希望下载所有内容。有人知道这会怎么样吗?

答案1

您可以下载Windows 版 Wget并使用cmd.exe

wget -r -l 2 https://docs.oracle.com/javase/tutorial/reallybigindex.html

如果您还想要这些页面的图像和 CSS 文件,请添加-p-k更改 HTML 中的链接,以便您可以离线浏览这些页面。

本教程有一些可能有帮助的截图。

的值-l 2将获取第一个页面以及它链接到的所有页面。您可以增加该数字以获取更深层次的页面,但我担心它会跟随一些远离教程和 Oracle 网站周围的链接。

或者你可以尝试可视化Wget它有一个 UI!

或者你也可以下载电子书形式的教程

答案2

如何下载网站及其引用的链接

我在这里有一个链接列表:https://docs.oracle.com/javase/tutorial/reallybigindex.html

与其下载“真正大索引”中的所有链接,不如直接下载下载最新的 Java 教程包

它有多种格式 - zip、epub 和 mobi。

tutorial.zip包括reallybigindex.html以及所有引用的文件。

以下是解压后的 zip 文件的顶层内容:

enter image description here

答案3

有很多方法可以解决这个问题。由于不知道您想要的最终产品,所以我无法给出具体的答案。

  • 获得,正如@joeytwiddle所建议的
  • 卷曲(类似于 wget)
  • 谷歌表格
  • Chrome 或 Firefox 的浏览器插件(搜索刮刀

我将扩展 Google Sheets(我将其用于简单的一次性项目):

  • 创建新工作表
  • 将其放入单元格 a1https://docs.oracle.com/javase/tutorial/reallybigindex.html
  • 将其放入单元格 b2=IMPORTXML(A1, "//a[@href]/text()")(这将检索点击的文本)
  • 将其放入单元格 e2=IMPORTXML(A1, "//a[@href]/@href")(这将检索 URL)

该函数的第二个参数是xpath表达式。您需要调整这些以获得所需的结果。有许多在线 xpath 测试器可以帮助您完成此操作。

相关内容