webarchive

如何从已关闭的服务器恢复电子邮件
webarchive

如何从已关闭的服务器恢复电子邮件

我在 Altern.org 上有一个旧电子邮件帐户。不幸的是,服务器已关闭,我未能成功联系管理员来检索我的电子邮件。是否有任何存档服务器(如网站存档)恢复我的旧电子邮件。 ...

Admin

网站关闭后如何恢复数据?
webarchive

网站关闭后如何恢复数据?

背景:Twitch 有一项名为 Twitch Sings 的卡拉 OK 服务,该服务于去年 12 月关闭。它是由 Harmonix 开发的,该工作室还创建了《吉他英雄》和《摇滚乐队》,因此有关它的信息值得保留。我正在尝试找到最终的歌曲列表,但唯一包含完整信息的页面是此页面,该页面已被停用:https://songlist.sings.twitch.tv/ 归档版本:https://web.archive.org/web/20201202061659/https://songlist.sings.twitch.tv/ 问题:通过 archive.org 查看页...

Admin

为什么我在 archive.org 上的 URL 中添加了 http://takeoverAd.html/?
webarchive

为什么我在 archive.org 上的 URL 中添加了 http://takeoverAd.html/?

我正在尝试浏览archive.org上的以下URL: https://web.archive.org/web/20020304231443/http://www.everlore.com/items/items.asp?mode=show&IID=641 这将把我重定向到一个错误页面,上面写着: 此页面在网络上不可用 由于服务器错误 但显示的网址是: http://takeoverAd.html/?https:%2F%2Fweb.archive.org%2Fweb%2F20031126232714%2Fhttp:%2F%2...

Admin

如何在 Windows 上打开(可能)损坏的 Webarchive
webarchive

如何在 Windows 上打开(可能)损坏的 Webarchive

首先,这是我第一次处理 WARC 文件... 我有一个 webarchive 文件似乎已损坏(在某种程度上),我在 Windows 上安装了 Safari,然后出现了此问题(在 Mac 上也发生了同样的事情): 我尝试使用 7-zip 打开它,但它说这不是有效的档案。 我尝试这Ruby 脚本但是它也给了我一个错误... 我需要的是找到一种方法来从档案中提取文件...有什么建议吗? ...

Admin

在 CLI 上浏览在线档案的命令
webarchive

在 CLI 上浏览在线档案的命令

是否有一个 shell 命令可以让我们浏览存档,例如http://archive.apache.org/dist/hadoop/hive/通过 CLI? 一些命令让我们执行 ls 和 cd、tree、find 中至少一个的功能。 ...

Admin

浏览已存档的网站
webarchive

浏览已存档的网站

我的机器本地文件夹中存储有 html/网页文件。我可以使用任何浏览器正常查看这些内容。但是,从长远来看,我更希望将内容存储在某种存档格式(ZIP?)中。我可以这样做,每次想要查看页面时手动提取内容。但是,这有几个缺点。 如何在以下条件下查看存档文件内的 html/网页文件: 无需每次手动提取内容 内容不应提取到与档案相同的目录中 - 它应该放到其他地方,例如系统临时目录 不必为了查看几个页面而提取所有内容。我希望解决方案能够仅提取呈现当前正在查看的页面所需的内容 ...

Admin

定期存档网站的最佳方法
webarchive

定期存档网站的最佳方法

我正在研究一种方法,定期(比如说每月)存档我们的网站(动态生成)并保持其版本,以便我可以在特定时期返回并提取页面。 我最初的方法是递归地抓取站点并将其提交到 Subversion 存储库,以便我可以使用 Subversion 历史记录和导出功能。 有没有其他最佳解决方案,可以尽可能减少空间占用?另外,我不确定整个站点的颠覆提交需要多长时间,因此也需要更快的解决方案。 ...

Admin

从网络档案 (.warc) 中提取文件
webarchive

从网络档案 (.warc) 中提取文件

我对多个网站进行了存档,以便保留其中的许多链接文件,特别是一些 PDF。 我使用 Heritrix 爬虫收集网站时没有遇到任何问题。但是我还没有找到从这些.warc文件中提取文件的好方法。 有人有这方面的经验吗,或者有提取这些单个文件的首选方法吗? ...

Admin

背景
webarchive

背景

我正在尝试使用 wget 创建一个网站的本地镜像。但我发现我没有获取所有链接页面。 这是网站 http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/ 我不需要以 开头的所有页面web.archive.org,但我想要以 开头的所有页面http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/。 当我使用时wget -r,在我的文件结构中我发现 web....

Admin

寻找一种工具来创建节省空间的网络档案
webarchive

寻找一种工具来创建节省空间的网络档案

我正在寻找一种工具来高效地归档每天甚至每天两三次更改的博客。我的意思不是说个别博客文章会更改 - 无论如何不会定期更改 - 我只是说添加了新的博客条目,而旧条目会移到首页下方。我发现的一个问题是,多次归档同一篇博文效率低下。理想情况下,应该归档对同一篇博文的修订,但原始博文不需要,因为修订可能是由于改进或更正。 这是一个包含文本和静态图像的 blogspot.com 博客。最好使用 Linux 解决方案。 ...

Admin

如何存档我的 Delicious 书签中链接的网页?
webarchive

如何存档我的 Delicious 书签中链接的网页?

我正在寻找快速备份我在 Delicious 书签中收集的网页的方法,以防止链接腐烂等。到目前为止,我想到的最有效的方法是将我的 Delicious 书签导出为单个网页/HTML 格式,然后使用HT轨道从源页面捕获 HTML(显然,我必须尝试链接深度等,并限制我正在下载的某些文件类型)。 还有谁能想到更好的解决方案吗? ...

Admin

有 httrack 备份网站吗?
webarchive

有 httrack 备份网站吗?

我正在尝试备份一个网站追踪但它并没有达到我想要的效果。 它已经运行了 20 分钟,从其他网站下载了看似无意义的图像和 js 文件。我链接的页面是“存档”页面,其中包含指向我想要的所有页面的链接。当我浏览文件夹并启动备份 html 文件时。我看到了该页面,但所有链接都是指向原始网站的直接链接。它似乎没有保存它链接到的页面。(过去 20 分钟它在做什么......) 我如何告诉 httrack 进入特定页面并备份该页面链接到的该域上的所有页面? ...

Admin