我下载了一个 Twitter 档案,其结构如下:
twitter_archive
| assets
+-- fonts (.eot files)
+-- images (icons)
+-- js
| data
+-- various tweet folders containing images
+-- more javascript files
| index.html (launching this brings you to a local webpage in which you
can navigate the archive with a Twitter style GUI)
我尝试使用沃吉特Python 包使用存档并创建可以在https://replayweb.page/。
我成功创建了 WARC 文件,但当加载到 replayweb.page 时,它显示“此存档中未定义任何页面。但是,当手动导航到 index.html 时,它会正常加载 Twitter 存档 GUI。
我的问题是,我可以使用哪些参数与 warcit 一起将 index.html 定义为页面?
我使用的命令是:
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=index.html http://website.com/ "E:/twitter_archive/"
答案1
看起来您正在使用 warcit 工具从本地 Twitter 存档创建 WARC 文件。warcit 工具允许您从网站创建 WARC 文件,方法是抓取网站并将页面和相关资源(例如图像和样式表)保存到 WARC 文件中。
要创建一个包含 Twitter 存档中的 index.html 文件作为页面的 WARC 文件,您可以使用 --index-files 选项以及 index.html 文件的路径。例如:
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"
这将创建一个 WARC 文件,其中包含 index.html 文件作为页面,以及从该页面链接的任何其他页面和资源。
如果要将 Twitter 存档中的所有文件都包含在 WARC 文件中,可以使用 --mirror 选项,而不是 --index-files 选项。这将创建一个包含 Twitter 存档中的所有文件的 WARC 文件,而不仅仅是从特定索引文件链接的文件。
warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"