我正在尝试帮助一位同事在 Macbook Air MacOsx 10.11.06 上使用通过 brew 安装的 wget(版本 1.19.1)存档网站。使用此命令。
wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domain scart.be --warc-file=20161103_scart www.scart.be
然而这会导致终端出现错误:
转换链接http://www.scart.be/index.html?q=fr%2Fnode%2F1135.html35-27 遇到不完整或无效的多字节序列
我对其进行了测试,它在 Ubuntu xenial 机器(wget 版本 1.17.1)和另一个系统 MacOsx 10.11.06 上运行良好。(wget 版本 1.19.1)
我尝试将“--restrict-file-names=windows”更改为“--restrict-file-names=nocontrol”,但没有任何变化。如果我们尝试将 .warc 文件导入 Webrecorder-player,它会显示“未找到书签”,而它与前面提到的另外两台机器上创建的 .warc 文件一起工作。到目前为止,我在其他网站上发现,这个错误与字符编码有关,并且一直卡在那里。