我想为我的 Blogger 博客创建本地备份,包括所有图片和视频的本地副本。每当我发布新博客时,我都希望它在 24 小时内本地镜像。cron 作业中的 Wget --mirror 是一个不错的开始,但速度相当慢。
有人这样做过吗,或者每个人都相信 Google 的备份吗?
答案1
我只是每晚使用 wget。FWIW,以下是我使用的参数:
-N – 开启时间戳
-r——递归
-k – 转换链接
-nv – 关闭详细日志记录
-o——输出日志
-i - 要抓取的站点的输入文件
-m——镜像
-w1 – 在请求之间等待 1 秒
--random-wait - 在请求之间使用随机等待时间
-np - 没有父级,永远不会上升到父目录
-p – 下载所有页面先决条件(样式表、脚本等)
-X - 要排除的目录
-R - 要拒绝的文件名
-H – 跨主机(受-D限制)
-D – 要抓取的域(仅限于这些域)
最大的问题是 Blogger 返回的大多数页面在响应中没有 Last-modified HTTP 标头,因此它会重新下载未更改的文件并记录以下消息:
“缺少上次修改的标头 - 时间戳已关闭。”
如果我能弄清楚如何抑制这种行为,我会很高兴,因为这会使它变慢,而且我的本地备份必须每晚处理这些文件,因为它认为它们已经改变(但实际上并没有)。
答案2
如果你只是想获得内容备份(即您不关心格式和样式表),您可以使用 rss 订阅者(如 Apple 的 Mail.app),以便它为您获取所有新帖子。