我已经尝试过以下方法:
wget -nd -r -l1 -A gz http://www.example.com/products
这仅保存了一个.txt
文件,其中显示:
User-agent: * Disallow: /
另一方面
wget -r http://www.example.com/products/*.gz
根本行不通。
我还应该尝试哪些其他命令?
答案1
你的第一个命令看起来不错,但就像其他人已经想说的那样:网站所有者放置了一个 robots.txt,它希望任何搜索引擎 - 或类似的网络蜘蛛程序,其中包括 wget - 远离她的网站(为了防止不必要的流量或由于任何其他原因)。 wget 默认情况下尊重这一点,请参阅 wget 手册(例如info wget
)第 9.1 节(第 9 章:附录中)以查找 .wgetrc 的可调节机器人相关功能(也可通过-e …
命令行选项设置)。