比较不同时间点的单个网站/浏览会话

Question 1

如果需要登录并执行某些操作，则使用wget或类似工具进行静态下载将不够。在这种情况下，我建议使用硒编写所需的操作脚本，并转储所有网站内容以及响应。

基本思路是用您喜欢的语言（例如 Python、Javascript、Ruby 等）编写一个脚本，使用 Selenium Web 驱动程序来控制浏览器。该脚本执行登录操作、点击元素等，一旦收到响应，您就可以存储传输页面的正文。Python 的一个简单示例是给出以及一些显示登录的代码这里。

您必须通过遍历所有外部<script>标签来扩展代码，下载其源代码，或者通过遍历所有<img>标签来下载图像。这样，您可以轻松地比较主要 HTML 代码，并查看所调用脚本/图像的各个文件名。

另一种可能性是使用以下方法运行 Selenium 脚本BrowserMob，它可以导出 HAR 文件。这样，您可以将自动化与自动转储所有内容结合起来。当然，然后您必须比较 HAR 文件，因为存在不同的查看器。请注意，如果您希望 BrowserMob 与 HTTPS 站点一起工作，则必须使用中间人证书。

Answer

如果需要登录并执行某些操作，则使用wget或类似工具进行静态下载将不够。在这种情况下，我建议使用硒编写所需的操作脚本，并转储所有网站内容以及响应。

基本思路是用您喜欢的语言（例如 Python、Javascript、Ruby 等）编写一个脚本，使用 Selenium Web 驱动程序来控制浏览器。该脚本执行登录操作、点击元素等，一旦收到响应，您就可以存储传输页面的正文。Python 的一个简单示例是给出以及一些显示登录的代码这里。

您必须通过遍历所有外部<script>标签来扩展代码，下载其源代码，或者通过遍历所有<img>标签来下载图像。这样，您可以轻松地比较主要 HTML 代码，并查看所调用脚本/图像的各个文件名。

另一种可能性是使用以下方法运行 Selenium 脚本BrowserMob，它可以导出 HAR 文件。这样，您可以将自动化与自动转储所有内容结合起来。当然，然后您必须比较 HAR 文件，因为存在不同的查看器。请注意，如果您希望 BrowserMob 与 HTTPS 站点一起工作，则必须使用中间人证书。

Question 2

如果你想下载整个网站，请参阅文章最佳免费网站破解程序。

本文包含对几款优秀破解程序的评论：HTTrack、PageNest、wget 等。我以前用过 HTTrack，效果很好。

如果想回到更早的时期，你可以尝试互联网档案馆 Wayback Machine 它试图存档整个网络。它会定期对网站进行快照，因此你会发现多个版本可供比较。

为了捕获流量，您需要一个网络流量监视器。我可以推荐两款出色的产品： Wireshark 以及微软的提琴手。

Answer

如果你想下载整个网站，请参阅文章最佳免费网站破解程序。

本文包含对几款优秀破解程序的评论：HTTrack、PageNest、wget 等。我以前用过 HTTrack，效果很好。

如果想回到更早的时期，你可以尝试互联网档案馆 Wayback Machine 它试图存档整个网络。它会定期对网站进行快照，因此你会发现多个版本可供比较。

为了捕获流量，您需要一个网络流量监视器。我可以推荐两款出色的产品： Wireshark 以及微软的提琴手。

比较不同时间点的单个网站/浏览会话

答案1

答案2

相关内容