如何使用 HTTrack 或 bash 脚本按 ID 或类排除 HTML 元素

Question

这不是一个完整的答案，但它对于评论框来说太大了，我希望它能让你走上正确的轨道。

在 HTTrack 处理文件时删除这些内容可能比较困难。他们有一个用于插件的 C API，似乎提供了钩子，您可以在 HTTrack 扫描文档以查找要下载的更多 URL 之前使用该钩子删除文档中的部分内容，但我没有看到用于该目的的脚本接口（不过其他人可能已经编写了一个）。

去掉那些东西后HTTrack 下载文件会更容易，但 bash 可能不是最好的选择，因为您必须花费大量时间教 bash 如何解析 HTML。您最好使用更高级的脚本语言，该语言具有内置或免费提供的良好 HTML/DOM 库（Perl、Python、Ruby 等）。

Answer 1

这不是一个完整的答案，但它对于评论框来说太大了，我希望它能让你走上正确的轨道。

在 HTTrack 处理文件时删除这些内容可能比较困难。他们有一个用于插件的 C API，似乎提供了钩子，您可以在 HTTrack 扫描文档以查找要下载的更多 URL 之前使用该钩子删除文档中的部分内容，但我没有看到用于该目的的脚本接口（不过其他人可能已经编写了一个）。

去掉那些东西后HTTrack 下载文件会更容易，但 bash 可能不是最好的选择，因为您必须花费大量时间教 bash 如何解析 HTML。您最好使用更高级的脚本语言，该语言具有内置或免费提供的良好 HTML/DOM 库（Perl、Python、Ruby 等）。

相关内容