我希望我可以在这里问这个问题。
我需要将现有网站(由网站所有者负责)的内容提取到 Word(或文本)文档中。为此,我只需要一个具有给定 ID 的 DIV 中的内容。
有没有 Windows 工具可以帮我完成这个任务(最好是递归式的)?我知道 wget 和 Web Site Downloader,但它们都“只能”保存完整的 HTML。
答案1
最好的选择是为此构建自己的工具链:
- 使用诸如 的工具
wget
来递归下载需要内容的 HTML 文件。特别注意-r
指定递归下载的选项,以及-l
指定递归深度的选项。wget
输出纯文本。 - 使用诸如 的工具
grep
过滤掉除包含<DIV>
您需要的 的行之外的所有内容。特别注意指定-r
递归搜索和-e
指定正则表达式的选项。将grep
的输出通过管道传输到您选择的文件中。grep
如果输入的是纯文本,则输出纯文本。
暗示:grep
使用多次过滤小块内容可能更简单。这完全取决于各个页面的相似程度以及代码的整洁程度。
编辑:不过,也许使用正则表达式不是解析 HTML 的好方法。
答案2
答案3
我很懒。在你研究和设置专用工具的时间里,你肯定可以用鼠标突出显示所需的文本,然后将其复制并粘贴到文本编辑器中吧?