答案1
我建议你阅读常问问题
以下是 WinHTTrack 网站的一段引文:
问:有些网站抓拍效果很好,有些则不好。为什么?
答案:镜像失败的原因(和解决方案)有多种。阅读日志文件(请参阅此常见问题解答!)通常是查明发生问题的一个非常好的方法。
网站内的链接指的是外部链接,或位于另一个(或上层)目录中的链接,默认情况下不捕获 - 使用过滤器通常是解决方案,因为这是 HTTrack 中强大的选项之一。请参阅上面的问题/答案。网站“robots.txt”规则禁止访问多个网站部分 - 您可以禁用它们,但必须非常小心!HTTrack 经过过滤(通过其默认用户代理标识) - 您可以将浏览器用户代理标识更改为匿名标识(MSIE、Netscape..) - 再次,请谨慎使用此选项,因为此措施可能是为了避免某些带宽滥用(另请参阅滥用常见问题解答!)
然而,有些情况目前还不能处理:
Flash 站点- 没有全力支持
密集型 Java/Javascript 网站- 可能是虚假的/不完整的
具有内置重定向和其他技巧的复杂 CGI- 处理起来非常复杂,因此可能会引起问题
HTML 代码解析问题(引擎被欺骗的情况,例如被错误的注释(
检测到注释 (-->)。罕见情况,但可能发生。错误报告通常很好!
注意:对于某些网站,设置“强制使用旧版 HTTP/1.0 请求”选项可能很有用,因为此选项使用更多基本请求(例如,无 HEAD 请求)。这将导致性能损失,但会增加与某些基于 cgi 的网站的兼容性。
PD。网站无法 100% 捕获的原因有很多,我认为在 SuperUser 中我们非常热心,但我们不会对网站进行逆向工程以发现哪个系统在后台运行(这是我的观点)。