如何以纯文本形式下载 HTML 文件?

如何以纯文本形式下载 HTML 文件?

如果一个人下载了一个带有curl或 的网页wget,它就会变成 html。

但是,如果我希望以纯文本形式下载它(即没有任何 HTML 解析),则完全或几乎完全如此清楚地读在网络浏览器中(当然省略任何图像/视频/音频),有什么方法可以做到这一点?

答案1

你无法下载它,它不存在于服务器上。服务器发送 HTML,浏览器的工作是显示它。其中一部分(可以)是显示文本。

事实上,许多网页相当空,并在您阅读时加载相关内容。

因此,您需要一个可以工作的浏览器,它可以显示您的文本,然后您需要获取该文本。

通常,您可以通过从脚本语言实际远程控制浏览器来做到这一点:以特殊的“守护程序”模式启动浏览器,连接到它,并使用专门设计的浏览器控制界面(WebDriver)告诉它转到一个 URL,等待一秒钟让浏览器正常呈现您在屏幕上看到的内容,然后告诉它保存为纯文本文件。

答案2

就我个人而言,我会使用潘多克为了那个原因。

pandoc -t plain 'https://example.com/something/'

要保存到文件:

pandoc -t plain 'https://example.com/something/' -o output.txt

显然,这只适用于不依赖 javascript 填充页面的大多数文本网站。

相关内容