我正在尝试获取一个页面的精确副本。我使用:
wget -E -H -k -K -p http://example.com
一切正常,除了:
- 如果我的风格中导入了另一个 CSS 文件,则不会下载。
- 如果 JavaScript 将图像放在任何地方,那么它们就不会被下载(将一个类放在锚标记上,然后在我的 script.js 文件中让 jQuery 在那里放置一个图像。
有什么想法可以让它们工作吗?
答案1
我使用 pavuk 进行镜像,效果很好 - 生成的镜像可以在浏览器中查看,并且它也可以部分解析 javascript(但当然不是完全解析):
/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' -norobots -dont_limit_inlines -dont_leave_site http://www.example.com/ >OUT 2>ERR &
您还可以使用 -skip_url_rpattern 跳过一些无用的动态脚本,例如:
-skip_url_rpattern 'index.php\?Addcomm=' -skip_url_rpattern 'index.php\?cal=1'