使用 Twitter 存档创建 WARC 文件

使用 Twitter 存档创建 WARC 文件

我下载了一个 Twitter 档案,其结构如下:

twitter_archive
| assets
+-- fonts (.eot files)
+-- images (icons)
+-- js
| data
+-- various tweet folders containing images
+-- more javascript files
| index.html (launching this brings you to a local webpage in which you 
              can navigate the archive with a Twitter style GUI)

我尝试使用沃吉特Python 包使用存档并创建可以在https://replayweb.page/

我成功创建了 WARC 文件,但当加载到 replayweb.page 时,它​​显示“此存档中未定义任何页面。但是,当手动导航到 index.html 时,它会正常加载 Twitter 存档 GUI。

我的问题是,我可以使用哪些参数与 warcit 一起将 index.html 定义为页面?

我使用的命令是:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=index.html http://website.com/ "E:/twitter_archive/"

答案1

看起来您正在使用 warcit 工具从本地 Twitter 存档创建 WARC 文件。warcit 工具允许您从网站创建 WARC 文件,方法是抓取网站并将页面和相关资源(例如图像和样式表)保存到 WARC 文件中。

要创建一个包含 Twitter 存档中的 index.html 文件作为页面的 WARC 文件,您可以使用 --index-files 选项以及 index.html 文件的路径。例如:

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

这将创建一个 WARC 文件,其中包含 index.html 文件作为页面,以及从该页面链接的任何其他页面和资源。

如果要将 Twitter 存档中的所有文件都包含在 WARC 文件中,可以使用 --mirror 选项,而不是 --index-files 选项。这将创建一个包含 Twitter 存档中的所有文件的 WARC 文件,而不仅仅是从特定索引文件链接的文件。

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

相关内容