将网站的部分内容保存为纯文本

Question 1

最好的选择是为此构建自己的工具链：

使用诸如的工具wget来递归下载需要内容的 HTML 文件。特别注意-r指定递归下载的选项，以及-l指定递归深度的选项。 wget输出纯文本。
使用诸如的工具grep过滤掉除包含<DIV>您需要的的行之外的所有内容。特别注意指定-r递归搜索和-e指定正则表达式的选项。将grep的输出通过管道传输到您选择的文件中。 grep如果输入的是纯文本，则输出纯文本。

暗示：grep使用多次过滤小块内容可能更简单。这完全取决于各个页面的相似程度以及代码的整洁程度。

Answer

最好的选择是为此构建自己的工具链：

使用诸如的工具wget来递归下载需要内容的 HTML 文件。特别注意-r指定递归下载的选项，以及-l指定递归深度的选项。 wget输出纯文本。
使用诸如的工具grep过滤掉除包含<DIV>您需要的的行之外的所有内容。特别注意指定-r递归搜索和-e指定正则表达式的选项。将grep的输出通过管道传输到您选择的文件中。 grep如果输入的是纯文本，则输出纯文本。

暗示：grep使用多次过滤小块内容可能更简单。这完全取决于各个页面的相似程度以及代码的整洁程度。

Question 2

我认为这样的事情还不存在。我认为最好的选择是自己编写代码。

美丽的汤是一个...漂亮的 Python 库，它可以让您用极少的代码完成此操作。如需更多帮助，我建议您前往堆栈溢出

Answer

我认为这样的事情还不存在。我认为最好的选择是自己编写代码。

美丽的汤是一个...漂亮的 Python 库，它可以让您用极少的代码完成此操作。如需更多帮助，我建议您前往堆栈溢出

Question 3

我很懒。在你研究和设置专用工具的时间里，你肯定可以用鼠标突出显示所需的文本，然后将其复制并粘贴到文本编辑器中吧？

Answer

我很懒。在你研究和设置专用工具的时间里，你肯定可以用鼠标突出显示所需的文本，然后将其复制并粘贴到文本编辑器中吧？

相关内容