我正在寻找一种工具来高效地归档每天甚至每天两三次更改的博客。我的意思不是说个别博客文章会更改 - 无论如何不会定期更改 - 我只是说添加了新的博客条目,而旧条目会移到首页下方。我发现的一个问题是,多次归档同一篇博文效率低下。理想情况下,应该归档对同一篇博文的修订,但原始博文不需要,因为修订可能是由于改进或更正。
这是一个包含文本和静态图像的 blogspot.com 博客。最好使用 Linux 解决方案。
答案1
一种解决方案是将其存储在 Git 存储库中。
由于 Git 使用基于内容的寻址,未更改的文件在存储库中占用的额外空间可以忽略不计。修订版本也占用很少的空间,因为它存储了差异。最初,blob 以单独压缩的形式存储,但 Git 会定期将文件合并成包,这样可以更有效地压缩。您也可以使用 手动调用该功能git gc
。
获取网站数据的一个简单方法是使用wget --mirror
。或者,查看博客网站是否提供 XML API(通过避免存档样板 HTML,可以更节省空间)。您想将页面下载到当前工作树中。
然后,在下载完成后,将所有内容添加并提交到 git 存储库。因此,每个提交都代表了时间快照。