我目前正在我的服务器上镜像一个网站。该网站本身很少更新,但更新的次数太多,以至于信息很快就会过时。
我首先使用 wget 对其进行了镜像,并且运行正常,但我做了一些更改:
- 原来的 index.html 使用了框架,但该网站还提供了一个 main.html,它本质上是 index.html,但没有框架。我删除了 index.html 并重命名为 main.html。
- 我不想镜像网络聊天、博客或论坛,所以我删除了这些文件和目录,并创建了“博客”“论坛”和“聊天”目录,并在每个目录中放置了一个 php 重定向,将访问者重定向到原始网站。
我想自动更新镜像(可能每 24-72 小时一次),但保留我所做的更改。这可能吗?我该怎么做?我完全不知道该怎么做。
谢谢大家的帮助!:)
答案1
我假设你正在使用wget --miror
。可能的解决方案:
如果要保留的部分位于目录中,则可能会起作用:
wget --exclude-directories=LIST
如果您可以容忍它,您允许竞争条件,您可以让 wget 覆盖内容,然后使用恢复它们的脚本将其覆盖回去。
防止覆盖您不想更改的文件。
chmod 444 index.html