镜像多语言网站时,Wget 会覆盖文件

镜像多语言网站时,Wget 会覆盖文件

我想使用 wget 镜像一个网站。问题是该网站有几种语言变体,这些变体使用查询字符串参数进行切换,当 wget 开始下载另一种语言版本时,它会破坏前一个版本。例如,它从 index.html 开始,抓取网站的一部分,然后遇到指向 index.html?lang=foo 的链接,开始下载新的语言变体并用新的语言变体覆盖以前的 index.html。当我想要所有这些时,我该怎么办?

答案1

由于页面实际上是相同的,所以我不太确定......

你可以试试HT轨道这是一个非常灵活的网站复制器,您可以配置规则,例如使用特定查询字符串排除路径/页面...或者它实际上可以下载所有语言,但我不是 100% 确定,因为我没有遇到过这个问题。

相关内容