如何告诉 httrack 不要将 index.html 附加到链接

如何告诉 httrack 不要将 index.html 附加到链接

当使用类似 httracks 的链接镜像站点时,www.example.com/some/where/会将其更改为www.example.com/some/where/index.html本地副本。

有没有选项可以避免附加 index.html?

PS:我完全清楚 index.html 是本地浏览网站所必需的,但问题是镜像将取代服务器上的网站。这是一个数据库驱动的网站,它将被静态版本取代,因为它不会再更新了。但我希望它与原始网站的快照完全相同。

如果不可能的话,我将需要使用 sed 来删除 index.html 部分。

答案1

我最终使用了 sed:

find . -name '*.html' -exec sed -i 's%index.html%%g' {} \;

它在当前子目录中查找所有以 .html 结尾的文件,并对它们运行 sed 命令,将所有出现的 index.html 替换为空,即删除它。

答案2

只需添加选项-K,它就会跳过 URL 中的 index.html。但您需要确保您的主机可以解析没有 index.html 的 URL

例如:

httrack https://example.com/ -K

在此处输入图片描述

https://www.httrack.com/html/fcguide.html

相关内容