我想备份由 posterous.com 提供支持的博客内容。我想将所有文本和图片保存到本地磁盘。能够离线浏览是一大优势。
我已经尝试过的:
wget -mk http://myblogurl
它下载包含帖子列表的第一页,然后停止并显示“ 20 redirections exceeded
”消息。
它下载第一个页面并重定向到www.posterous.com主页而不是真实的页面内容。
编辑:我要备份的网站网址是博客.safabyte.net
答案1
Posterous.com 确实维护着一个可能对你有帮助的 API。特别是他们的http://posterous.com/api/readingAPI 可能会有用。您可以使用它来获取包含所有帖子及其内容的 XML 文件。
例如,http://posterous.com/api/readposts?hostname=jasonpearce检索我发布到 Posterous 的所有 12 条帖子。
答案2
这对我有用:
wget -r -l inf -k -E -p -nc http://blog.safabyte.net/
似乎使用-m
开启-N
(时间戳)并且 posterous 不会发送令 wget 不高兴的最后修改标头,因此我直接使用-r -l inf
。
使用的选项是:
-r
递归
-l inf
无限深度
-k
后缀为 .html 的 html 文件使用
-E
指向本地文件的链接更新已保存的文件
-p
下载页面资源
-nc
不要多次重新下载 URL
此命令仍然不会从其他域下载资源,这意味着它不会获取图像,因为它们托管在不同的 CDN 上。
答案3
设法下载了至少所有 html 内容。以下代码似乎从博客下载了所有页面(在 Windows XP 上使用 Wget 1.11.3):
wget -mk http://blog.safabyte.net/*
帖子图片仍未下载。看起来可能是因为它们存储在不同的域中。
Html 内容位于 blog.safabyte.com/*,而图像位于http://posterous.com/getfile/files.posterous.com/cheated-by-safabyte/* 和 files.posterous.com