解析网站的 PDF

Question 1

该网站是否被 Google 编入索引？您只需搜索一下site:www.example.com filetype:pdf，它就会返回该网站编入索引的所有 PDF 文件。

另一种方法是使用 wget，这是一个 *nix 命令行工具，但可用于 Windows。通过使用递归模式并指定仅保存 pdf 文件，它可以遍历网站并找到所有 PDF。

wget.exe -r -A pdf -np http://www.example.com/将从 example.com 递归下载所有 PDF 文件，并且不会尝试进入父目录（仅当您想从特定子目录开始时才相关）。

我之前还没有真正测试过使用 WGET 处理特定文件类型，但是我之前进行过递归下载并且效果很好，所以你可能想尝试一下。

Answer

该网站是否被 Google 编入索引？您只需搜索一下site:www.example.com filetype:pdf，它就会返回该网站编入索引的所有 PDF 文件。

另一种方法是使用 wget，这是一个 *nix 命令行工具，但可用于 Windows。通过使用递归模式并指定仅保存 pdf 文件，它可以遍历网站并找到所有 PDF。

wget.exe -r -A pdf -np http://www.example.com/将从 example.com 递归下载所有 PDF 文件，并且不会尝试进入父目录（仅当您想从特定子目录开始时才相关）。

我之前还没有真正测试过使用 WGET 处理特定文件类型，但是我之前进行过递归下载并且效果很好，所以你可能想尝试一下。

Question 2

我可以建议你使用jsoup，Java HTML 解析器如果你熟悉 Java 或美丽的汤如果您熟悉 Python。

编写递归方法，执行以下操作：

类似这样的。

Answer

我可以建议你使用jsoup，Java HTML 解析器如果你熟悉 Java 或美丽的汤如果您熟悉 Python。

编写递归方法，执行以下操作：

类似这样的。

Question 3

这不是最简单的解决方案，但却是我最喜欢的。

编写您自己的蜘蛛！让它遍历网站、解析页面并查找您想要的文件。编写蜘蛛会带来许多有趣的挑战，我发现这很有趣。

虽然这可能不是 archer1742 想要的，但我确信有人（也许 archer1742 也是）会喜欢这个解决方案。

Answer

这不是最简单的解决方案，但却是我最喜欢的。

编写您自己的蜘蛛！让它遍历网站、解析页面并查找您想要的文件。编写蜘蛛会带来许多有趣的挑战，我发现这很有趣。

虽然这可能不是 archer1742 想要的，但我确信有人（也许 archer1742 也是）会喜欢这个解决方案。

相关内容