从 http 网站下载所有 .gz 文件

从 http 网站下载所有 .gz 文件

我已经尝试过以下方法:

 wget -nd -r -l1 -A gz http://www.example.com/products

这仅保存了一个.txt文件,其中显示:

User-agent: *
Disallow: /

另一方面

 wget -r http://www.example.com/products/*.gz

根本行不通。

我还应该尝试哪些其他命令?

答案1

你的第一个命令看起来不错,但就像其他人已经想说的那样:网站所有者放置了一个 robots.txt,它希望任何搜索引擎 - 或类似的网络蜘蛛程序,其中包括 wget - 远离她的网站(为了防止不必要的流量或由于任何其他原因)。 wget 默认情况下尊重这一点,请参阅 wget 手册(例如info wget)第 9.1 节(第 9 章:附录中)以查找 .wgetrc 的可调节机器人相关功能(也可通过-e …命令行选项设置)。

相关内容