如何使用 HTTrack 或 bash 脚本按 ID 或类排除 HTML 元素

如何使用 HTTrack 或 bash 脚本按 ID 或类排除 HTML 元素

我需要复制一个网站,但我想在所有页面中按 ID 或类排除特定的 HTML 元素(使用 bash 脚本)。

我需要这个,因为我不想要某些网站的广告或其他一些烦人的功能。

答案1

这不是一个完整的答案,但它对于评论框来说太大了,我希望它能让你走上正确的轨道。

在 HTTrack 处理文件时删除这些内容可能比较困难。他们有一个用于插件的 C API,似乎提供了钩子,您可以在 HTTrack 扫描文档以查找要下载的更多 URL 之前使用该钩子删除文档中的部分内容,但我没有看到用于该目的的脚本接口(不过其他人可能已经编写了一个)。

去掉那些东西HTTrack 下载文件会更容易,但 bash 可能不是最好的选择,因为您必须花费大量时间教 bash 如何解析 HTML。您最好使用更高级的脚本语言,该语言具有内置或免费提供的良好 HTML/DOM 库(Perl、Python、Ruby 等)。

相关内容