无法使用 WinHTTrack 复制/镜像网站页面

无法使用 WinHTTrack 复制/镜像网站页面

我在用追踪复制/镜像网站并面临一个问题。

我正在谈论网站。考虑一下我想涵盖包含所有内部链接的页面(您可以从该页面看到类似问题 6.11、问题 6.10)。因此,我尝试了以下操作:

  1. 输入项目名称和URL:

截屏

  1. 设置选项可以上下移动

在此处输入图片描述

然后我开始镜像,过程完成了,但是当我浏览 index.html 时,主页显示正确,但是进一步的链接(如前所述,问题 6.11、6.10 等的 sab 页面)没有显示 - 只显示文件名提要。(自己尝试一下看看出了什么问题)

我该如何解决这个问题?

答案1

我建议你阅读常问问题

以下是 WinHTTrack 网站的一段引文:

问:有些网站抓拍效果很好,有些则不好。为什么?

答案:镜像失败的原因(和解决方案)有多种。阅读日志文件(请参阅此常见问题解答!)通常是查明发生问题的一个非常好的方法。

网站内的链接指的是外部链接,或位于另一个(或上层)目录中的链接,默认情况下不捕获 - 使用过滤器通常是解决方案,因为这是 HTTrack 中强大的选项之一。请参阅上面的问题/答案。网站“robots.txt”规则禁止访问多个网站部分 - 您可以禁用它们,但必须非常小心!HTTrack 经过过滤(通过其默认用户代理标识) - 您可以将浏览器用户代理标识更改为匿名标识(MSIE、Netscape..) - 再次,请谨慎使用此选项,因为此措施可能是为了避免某些带宽滥用(另请参阅滥用常见问题解答!)

然而,有些情况目前还不能处理:

Flash 站点- 没有全力支持

密集型 Java/Javascript 网站- 可能是虚假的/不完整的

具有内置重定向和其他技巧的复杂 CGI- 处理起来非常复杂,因此可能会引起问题

HTML 代码解析问题(引擎被欺骗的情况,例如被错误的注释(

检测到注释 (-->)。罕见情况,但可能发生。错误报告通常很好!

注意:对于某些网站,设置“强制使用旧版 HTTP/1.0 请求”选项可能很有用,因为此选项使用更多基本请求(例如,无 HEAD 请求)。这将导致性能损失,但会增加与某些基于 cgi 的网站的兼容性。

PD。网站无法 100% 捕获的原因有很多,我认为在 SuperUser 中我们非常热心,但我们不会对网站进行逆向工程以发现哪个系统在后台运行(这是我的观点)。

相关内容