有一些简单而出色的网站下载工具,允许创建没有 JavaScript 基础架构的简单网站的本地镜像。但是,有时网站看起来很简单(甚至足够老,可以成为真正的“web 1.0”网站),但这些下载工具都无法为其创建镜像。我曾尝试为这个粉丝网站(例如,它有一些其他地方找不到的转录本,还有一些更罕见的东西)使用 HTTrack Site Copier、Free Download Manager 和 wget。它们都制作了简单的镜像,缺少很多内容。我在这些页面上看到了一些脚本,可能是这些脚本阻止了镜像。
如何镜像启用了简单 JS 的网站?也许有一个由 Web 浏览器驱动的解决方案可以开箱即用地支持 JS(任何浏览器扩展等)?
提前致谢。
答案1
在这个特殊的例子中,我得到了以下bash
脚本:
#!/bin/bash
DOWNLOAD="wget -m -p -E -np -k"
SITE="http://homepage.tinet.ie/~themma"
$DOWNLOAD $SITE/
$DOWNLOAD $SITE/songs/
$DOWNLOAD $SITE/songs/songs.html
$DOWNLOAD $SITE/songs/disco.html
$DOWNLOAD $SITE/links/
$DOWNLOAD $SITE/other/
$DOWNLOAD $SITE/tour/
for i in `seq 1 8`;
do
$DOWNLOAD $SITE/images/bar_0$i.gif
$DOWNLOAD $SITE/images/bar_0$i-over.gif
$DOWNLOAD $SITE/images/bar_0$i-bar_03_over.gif
done
for i in `seq 1989 2003`
do
$DOWNLOAD $SITE/images/$i.gif
done
当然,我无法模拟 JavaScript 行为,但由于该网站非常简单,因此对其进行分析并编写wget
基于的 shell 脚本并不需要花费太多精力。这有点棘手,但确实有效。感谢大家的建议。
我没有将此答案标记为最佳答案,因为我的答案仅实现了特定情况。因此,任何有关更一般情况的想法都非常受欢迎(任何“智能”命令行工具、浏览器扩展等)。