使用 Twitter 存档创建 WARC 文件

Question

看起来您正在使用 warcit 工具从本地 Twitter 存档创建 WARC 文件。warcit 工具允许您从网站创建 WARC 文件，方法是抓取网站并将页面和相关资源（例如图像和样式表）保存到 WARC 文件中。

要创建一个包含 Twitter 存档中的 index.html 文件作为页面的 WARC 文件，您可以使用 --index-files 选项以及 index.html 文件的路径。例如：

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

这将创建一个 WARC 文件，其中包含 index.html 文件作为页面，以及从该页面链接的任何其他页面和资源。

如果要将 Twitter 存档中的所有文件都包含在 WARC 文件中，可以使用 --mirror 选项，而不是 --index-files 选项。这将创建一个包含 Twitter 存档中的所有文件的 WARC 文件，而不仅仅是从特定索引文件链接的文件。

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

Answer 1

看起来您正在使用 warcit 工具从本地 Twitter 存档创建 WARC 文件。warcit 工具允许您从网站创建 WARC 文件，方法是抓取网站并将页面和相关资源（例如图像和样式表）保存到 WARC 文件中。

要创建一个包含 Twitter 存档中的 index.html 文件作为页面的 WARC 文件，您可以使用 --index-files 选项以及 index.html 文件的路径。例如：

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --index-files=E:/twitter_archive/index.html http://website.com/ "E:/twitter_archive/"

这将创建一个 WARC 文件，其中包含 index.html 文件作为页面，以及从该页面链接的任何其他页面和资源。

如果要将 Twitter 存档中的所有文件都包含在 WARC 文件中，可以使用 --mirror 选项，而不是 --index-files 选项。这将创建一个包含 Twitter 存档中的所有文件的 WARC 文件，而不仅仅是从特定索引文件链接的文件。

warcit --name twitter_archive -o --no-gzip -d 20221122010159 --mirror http://website.com/ "E:/twitter_archive/"

相关内容