如何使用shell脚本将网页内容保存到文件中

Question 1

你需要引用URL，否则这些&符号将被解释为命令分隔符。也就是说，您可以将curl输出重定向到文件 ( curl [...] > index.html) 或使用wget，默认情况下保存到文件。

Answer

你需要引用URL，否则这些&符号将被解释为命令分隔符。也就是说，您可以将curl输出重定向到文件 ( curl [...] > index.html) 或使用wget，默认情况下保存到文件。

Question 2

简单网页的另一个选项是“lynx”，它有一个 -dump 选项。它将把网页内容的“可读”视图保存到文件中。 lynx 现在有点老了，而且不支持 javascript 和框架。但是，如果您尝试从平坦的低/非交互式网页中删除“人类可读”内容，那么它比curl更容易使用。

大多数 Linux 发行版都将 lynx 作为可选包，因此您可能必须使用版本包管理器来安装它。

Answer

简单网页的另一个选项是“lynx”，它有一个 -dump 选项。它将把网页内容的“可读”视图保存到文件中。 lynx 现在有点老了，而且不支持 javascript 和框架。但是，如果您尝试从平坦的低/非交互式网页中删除“人类可读”内容，那么它比curl更容易使用。

大多数 Linux 发行版都将 lynx 作为可选包，因此您可能必须使用版本包管理器来安装它。

相关内容