答案1
您可以下载Windows 版 Wget并使用cmd.exe
:
wget -r -l 2 https://docs.oracle.com/javase/tutorial/reallybigindex.html
如果您还想要这些页面的图像和 CSS 文件,请添加-p
并-k
更改 HTML 中的链接,以便您可以离线浏览这些页面。
本教程有一些可能有帮助的截图。
的值-l 2
将获取第一个页面以及它链接到的所有页面。您可以增加该数字以获取更深层次的页面,但我担心它会跟随一些远离教程和 Oracle 网站周围的链接。
或者你可以尝试可视化Wget它有一个 UI!
或者你也可以下载电子书形式的教程。
答案2
如何下载网站及其引用的链接
我在这里有一个链接列表:https://docs.oracle.com/javase/tutorial/reallybigindex.html
与其下载“真正大索引”中的所有链接,不如直接下载下载最新的 Java 教程包。
它有多种格式 - zip、epub 和 mobi。
tutorial.zip
包括reallybigindex.html
以及所有引用的文件。
以下是解压后的 zip 文件的顶层内容:
答案3
有很多方法可以解决这个问题。由于不知道您想要的最终产品,所以我无法给出具体的答案。
我将扩展 Google Sheets(我将其用于简单的一次性项目):
- 创建新工作表
- 将其放入单元格 a1
https://docs.oracle.com/javase/tutorial/reallybigindex.html
- 将其放入单元格 b2
=IMPORTXML(A1, "//a[@href]/text()")
(这将检索点击的文本) - 将其放入单元格 e2
=IMPORTXML(A1, "//a[@href]/@href")
(这将检索 URL)
该函数的第二个参数是xpath表达式。您需要调整这些以获得所需的结果。有许多在线 xpath 测试器可以帮助您完成此操作。