我发现我自己必须使用 Python 脚本来访问网络档案。
我有一个来自 的“megawarc”网络存档文件http://archive.org/details/archiveteam-fanfiction-warc-11
。我需要使用 Python 脚本取消 megawarc 功能,脚本位于https://github.com/alard/megawarc。
我正在尝试运行该restore
命令,并且从第一个链接获得了所需的三个文件(FILE.warc.gz,FILE.tar和FILE.json.gz)。
我安装了 Python 2.7 和 3.3。
更新:
我已经运行了这两种方法:
python megawarc restore FILE
还有这个方法:
确保文件
megawarc
和ordereddict.py
要转换的文件位于同一目录中。将文件重命名megawarc
为megawarc.py
在此目录中打开 Python 控制台输入以下代码(逐行):
import sys
sys.argv = ['megawarc','restore','FILE']
import megawarc
megawarc.main() 使用 python 2.7,这就是我得到的..
c:\Python27>python megawarc restore FILE
回溯(最近一次调用):文件“megawarc”,第 563 行,在 main() 中
文件“megawarc”,第 552 行,在主 mwr.process() 中
文件“megawarc”,第 460 行,正在处理 self.process_entry(entry, tar_out)
文件“megawarc”,第 478 行,在 process_entry entry[“target”][“offset”]、entry[“target” [“size”])
文件“megawarc”,第 128 行,在 copy_to_stream 中引发异常(“文件结束:预期 %d 字节,但读取了 %d 字节。” % (buf_size, l))
异常:文件结束:预期 4096 字节,但读取了 236 字节。
我还遗漏了什么吗?
我有以下所有文件C:\python27
:
FILE.tar.megawarc.json.gz
FILE.tar.megawarc.tar
FILE.tar.megawarc.warc.gz
megawarc
ordereddict.py
这是某种损坏文件错误吗?是某种缓冲区错误吗?我是不是漏掉了什么?