将网站的部分内容保存为纯文本

将网站的部分内容保存为纯文本

我希望我可以在这里问这个问题。

我需要将现有网站(由网站所有者负责)的内容提取到 Word(或文本)文档中。为此,我只需要一个具有给定 ID 的 DIV 中的内容。

有没有 Windows 工具可以帮我完成这个任务(最好是递归式的)?我知道 wget 和 Web Site Downloader,但它们都“只能”保存完整的 HTML。

答案1

最好的选择是为此构建自己的工具链:

  1. 使用诸如 的工具wget来递归下载需要内容的 HTML 文件。特别注意-r指定递归下载的选项,以及-l指定递归深度的选项。 wget输出纯文本。
  2. 使用诸如 的工具grep过滤掉除包含<DIV>您需要的 的行之外的所有内容。特别注意指定-r递归搜索和-e指定正则表达式的选项。将grep的输出通过管道传输到您选择的文件中。 grep如果输入的是纯文本,则输出纯文本。

暗示:grep使用多次过滤小块内容可能更简单。这完全取决于各个页面的相似程度以及代码的整洁程度。


编辑:不过,也许使用正则表达式不是解析 HTML 的好方法

答案2

我认为这样的事情还不存在。我认为最好的选择是自己编写代码。

美丽的汤是一个...漂亮的 Python 库,它可以让您用极少的代码完成此操作。如需更多帮助,我建议您前往堆栈溢出

答案3

我很懒。在你研究和设置专用工具的时间里,你肯定可以用鼠标突出显示所需的文本,然后将其复制并粘贴到文本编辑器中吧?

相关内容