webarchive

有什么方法可以将邮件列表中的先前消息发送到我的邮箱吗？

我刚刚加入了某个邮件列表。该列表有一个网络存档，这很好，但我希望在我的邮箱中保存该列表的过去邮件（全部或几个月前），就像我是订阅者一样。最好与原始邮件的日期、主题和发件人相同。我认为，从理论上讲，也许所有这些电子邮件都可以现在发送给我，发送时间已经过去很久了。但是 - 这真的可以安排吗？还有其他方法可以实现这一点吗，例如，可以将（网络）档案导出/转换为 mbox 文件吗？笔记：该列表由“Mlmmj”程序管理该列表也存档在 mail-archive.com 上。这是[email protected]清单，但我希望得到尽可能合理的一般性答复...

Admin 2024-11-20

webarchive

如何从在线网络档案中重新创建电子邮件文件夹？

由于某些原因，我放错了一个邮件文件夹，里面有来自邮件列表的一堆消息。幸运的是 - 此列表有一个在线存档： https://listarchives.libreoffice.org/global/design/ 有什么方法可以重新创建 Mozilla盒（更具体地说，mboxrd）文件？也就是说，除了编写自己的程序来下载并转换它们之外，还有什么其他方法吗？ ...

Admin 2024-11-9

webarchive

如何从已关闭的服务器恢复电子邮件

我在 Altern.org 上有一个旧电子邮件帐户。不幸的是，服务器已关闭，我未能成功联系管理员来检索我的电子邮件。是否有任何存档服务器（如网站存档）恢复我的旧电子邮件。 ...

Admin 2024-10-7

webarchive

网站关闭后如何恢复数据？

背景：Twitch 有一项名为 Twitch Sings 的卡拉 OK 服务，该服务于去年 12 月关闭。它是由 Harmonix 开发的，该工作室还创建了《吉他英雄》和《摇滚乐队》，因此有关它的信息值得保留。我正在尝试找到最终的歌曲列表，但唯一包含完整信息的页面是此页面，该页面已被停用：https://songlist.sings.twitch.tv/ 归档版本：https://web.archive.org/web/20201202061659/https://songlist.sings.twitch.tv/ 问题：通过 archive.org 查看页...

Admin 2024-9-15

webarchive

为什么我在 archive.org 上的 URL 中添加了 http://takeoverAd.html/?

我正在尝试浏览archive.org上的以下URL： https://web.archive.org/web/20020304231443/http://www.everlore.com/items/items.asp?mode=show&IID=641 这将把我重定向到一个错误页面，上面写着：此页面在网络上不可用由于服务器错误但显示的网址是： http://takeoverAd.html/?https:%2F%2Fweb.archive.org%2Fweb%2F20031126232714%2Fhttp:%2F%2...

Admin 2024-7-10

webarchive

In MS Word, Opening a .txt file gives "Is not a valid single file web page" error

I have an email header stored in a .txt file. An automated process opens the file in Ms Word 2016. Word gives "Is not a valid single file web page" error. Obviously word is sniffing the file, it looks like a mime document, word incorrectly decides it's a web archive file, and t...

Admin 2024-6-18

webarchive

如何在 Windows 上打开（可能）损坏的 Webarchive

首先，这是我第一次处理 WARC 文件... 我有一个 webarchive 文件似乎已损坏（在某种程度上），我在 Windows 上安装了 Safari，然后出现了此问题（在 Mac 上也发生了同样的事情）：我尝试使用 7-zip 打开它，但它说这不是有效的档案。我尝试这Ruby 脚本但是它也给了我一个错误... 我需要的是找到一种方法来从档案中提取文件...有什么建议吗？ ...

Admin 2024-6-18

webarchive

在 CLI 上浏览在线档案的命令

是否有一个 shell 命令可以让我们浏览存档，例如http://archive.apache.org/dist/hadoop/hive/通过 CLI？一些命令让我们执行 ls 和 cd、tree、find 中至少一个的功能。 ...

Admin 2024-6-17

webarchive

浏览已存档的网站

我的机器本地文件夹中存储有 html/网页文件。我可以使用任何浏览器正常查看这些内容。但是，从长远来看，我更希望将内容存储在某种存档格式（ZIP？）中。我可以这样做，每次想要查看页面时手动提取内容。但是，这有几个缺点。如何在以下条件下查看存档文件内的 html/网页文件：无需每次手动提取内容内容不应提取到与档案相同的目录中 - 它应该放到其他地方，例如系统临时目录不必为了查看几个页面而提取所有内容。我希望解决方案能够仅提取呈现当前正在查看的页面所需的内容 ...

Admin 2024-6-15

webarchive

定期存档网站的最佳方法

我正在研究一种方法，定期（比如说每月）存档我们的网站（动态生成）并保持其版本，以便我可以在特定时期返回并提取页面。我最初的方法是递归地抓取站点并将其提交到 Subversion 存储库，以便我可以使用 Subversion 历史记录和导出功能。有没有其他最佳解决方案，可以尽可能减少空间占用？另外，我不确定整个站点的颠覆提交需要多长时间，因此也需要更快的解决方案。 ...

Admin 2024-6-15

webarchive

从网络档案 (.warc) 中提取文件

我对多个网站进行了存档，以便保留其中的许多链接文件，特别是一些 PDF。我使用 Heritrix 爬虫收集网站时没有遇到任何问题。但是我还没有找到从这些.warc文件中提取文件的好方法。有人有这方面的经验吗，或者有提取这些单个文件的首选方法吗？ ...

Admin 2024-6-15

webarchive

背景

我正在尝试使用 wget 创建一个网站的本地镜像。但我发现我没有获取所有链接页面。这是网站 http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/ 我不需要以开头的所有页面web.archive.org，但我想要以开头的所有页面http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/。当我使用时wget -r，在我的文件结构中我发现 web....

Admin 2024-6-14

webarchive

寻找一种工具来创建节省空间的网络档案

我正在寻找一种工具来高效地归档每天甚至每天两三次更改的博客。我的意思不是说个别博客文章会更改 - 无论如何不会定期更改 - 我只是说添加了新的博客条目，而旧条目会移到首页下方。我发现的一个问题是，多次归档同一篇博文效率低下。理想情况下，应该归档对同一篇博文的修订，但原始博文不需要，因为修订可能是由于改进或更正。这是一个包含文本和静态图像的 blogspot.com 博客。最好使用 Linux 解决方案。 ...

Admin 2024-6-13

webarchive

如何存档我的 Delicious 书签中链接的网页？

我正在寻找快速备份我在 Delicious 书签中收集的网页的方法，以防止链接腐烂等。到目前为止，我想到的最有效的方法是将我的 Delicious 书签导出为单个网页/HTML 格式，然后使用HT轨道从源页面捕获 HTML（显然，我必须尝试链接深度等，并限制我正在下载的某些文件类型）。还有谁能想到更好的解决方案吗？ ...

Admin 2024-6-13

webarchive

有 httrack 备份网站吗？

我正在尝试备份一个网站追踪但它并没有达到我想要的效果。它已经运行了 20 分钟，从其他网站下载了看似无意义的图像和 js 文件。我链接的页面是“存档”页面，其中包含指向我想要的所有页面的链接。当我浏览文件夹并启动备份 html 文件时。我看到了该页面，但所有链接都是指向原始网站的直接链接。它似乎没有保存它链接到的页面。（过去 20 分钟它在做什么......）我如何告诉 httrack 进入特定页面并备份该页面链接到的该域上的所有页面？ ...

Admin 2024-6-12