我需要复制一个网站,但我想在所有页面中按 ID 或类排除特定的 HTML 元素(使用 bash 脚本)。
我需要这个,因为我不想要某些网站的广告或其他一些烦人的功能。
答案1
这不是一个完整的答案,但它对于评论框来说太大了,我希望它能让你走上正确的轨道。
在 HTTrack 处理文件时删除这些内容可能比较困难。他们有一个用于插件的 C API,似乎提供了钩子,您可以在 HTTrack 扫描文档以查找要下载的更多 URL 之前使用该钩子删除文档中的部分内容,但我没有看到用于该目的的脚本接口(不过其他人可能已经编写了一个)。
去掉那些东西后HTTrack 下载文件会更容易,但 bash 可能不是最好的选择,因为您必须花费大量时间教 bash 如何解析 HTML。您最好使用更高级的脚本语言,该语言具有内置或免费提供的良好 HTML/DOM 库(Perl、Python、Ruby 等)。