当使用类似 httracks 的链接镜像站点时,www.example.com/some/where/
会将其更改为www.example.com/some/where/index.html
本地副本。
有没有选项可以避免附加 index.html?
PS:我完全清楚 index.html 是本地浏览网站所必需的,但问题是镜像将取代服务器上的网站。这是一个数据库驱动的网站,它将被静态版本取代,因为它不会再更新了。但我希望它与原始网站的快照完全相同。
如果不可能的话,我将需要使用 sed 来删除 index.html 部分。
答案1
我最终使用了 sed:
find . -name '*.html' -exec sed -i 's%index.html%%g' {} \;
它在当前子目录中查找所有以 .html 结尾的文件,并对它们运行 sed 命令,将所有出现的 index.html 替换为空,即删除它。
答案2
只需添加选项-K
,它就会跳过 URL 中的 index.html。但您需要确保您的主机可以解析没有 index.html 的 URL
例如:
httrack https://example.com/ -K