从内容中剥离并重新格式化特定的 HTML 标签

从内容中剥离并重新格式化特定的 HTML 标签

我目前正在进行一项涉及 Stack Exchange 内容的研究,并试图找到一种有效的方法将内容纳入我的 CAQDAS。我使用的 CAQDAS 是 DeDoose。

我的问题是,它对 HTML 的支持相当差,无法保留格式,所以很乱。我尝试了各种选项,例如打印为 PDF(但 PDF 支持也相当差)。所以我想把它变成富文本。

我有数千页需要处理。我查看了一个名为 ReaderView 的 Chrome 扩展程序。它做得很好,但删除了一些我需要的东西,比如格式和用户信息。目前,凭借我的技能,我能想到的最佳选择是在 InDesign 中复制粘贴每个页面的 HTML,并使用 GREP 创建脚本来删除我不需要的东西。

我梦想的应用程序是一个 HTML 编辑器,我可以在其中取消选中所有我不想要的 HTML/CSS 内容并将其导出为 RTF 或类似的东西......

你们有谁知道更好的方法来做到这一点?

这看起来是个好线索但我根本不懂 Python......

答案1

好吧,我最终解决了我的答案,虽然这个问题确实为我赢得了风滚草徽章......不确定这是不是一件好事!

我设法通过使用 Selenium API 来获得我想要的东西,根据需要提取和解析不同的选择器为 HTML/文本。

相关内容