如何设置我的 Blogger 博客的自动本地镜像?

如何设置我的 Blogger 博客的自动本地镜像?

我想为我的 Blogger 博客创建本地备份,包括所有图片和视频的本地副本。每当我发布新博客时,我都希望它在 24 小时内本地镜像。cron 作业中的 Wget --mirror 是一个不错的开始,但速度相当慢。

有人这样做过吗,或者每个人都相信 Google 的备份吗?

答案1

我只是每晚使用 wget。FWIW,以下是我使用的参数:

-N – 开启时间戳

-r——递归

-k – 转换链接

-nv – 关闭详细日志记录

-o——输出日志

-i - 要抓取的站点的输入文件

-m——镜像

-w1 – 在请求之间等待 1 秒

--random-wait - 在请求之间使用随机等待时间

-np - 没有父级,永远不会上升到父目录

-p – 下载所有页面先决条件(样式表、脚本等)

-X - 要排除的目录

-R - 要拒绝的文件名

-H – 跨主机(受-D限制)

-D – 要抓取的域(仅限于这些域)

最大的问题是 Blogger 返回的大多数页面在响应中没有 Last-modified HTTP 标头,因此它会重新下载未更改的文件并记录以下消息:

“缺少上次修改的标头 - 时间戳已关闭。”

如果我能弄清楚如何抑制这种行为,我会很高兴,因为这会使它变慢,而且我的本地备份必须每晚处理这些文件,因为它认为它们已经改变(但实际上并没有)。

答案2

如果你只是想获得内容备份(即您不关心格式和样式表),您可以使用 rss 订阅者(如 Apple 的 Mail.app),以便它为您获取所有新帖子。

相关内容