从内容中剥离并重新格式化特定的 HTML 标签

2024-6-18 • tag-icon

我目前正在进行一项涉及 Stack Exchange 内容的研究，并试图找到一种有效的方法将内容纳入我的 CAQDAS。我使用的 CAQDAS 是 DeDoose。

我的问题是，它对 HTML 的支持相当差，无法保留格式，所以很乱。我尝试了各种选项，例如打印为 PDF（但 PDF 支持也相当差）。所以我想把它变成富文本。

我有数千页需要处理。我查看了一个名为 ReaderView 的 Chrome 扩展程序。它做得很好，但删除了一些我需要的东西，比如格式和用户信息。目前，凭借我的技能，我能想到的最佳选择是在 InDesign 中复制粘贴每个页面的 HTML，并使用 GREP 创建脚本来删除我不需要的东西。

我梦想的应用程序是一个 HTML 编辑器，我可以在其中取消选中所有我不想要的 HTML/CSS 内容并将其导出为 RTF 或类似的东西......

你们有谁知道更好的方法来做到这一点？

这看起来是个好线索但我根本不懂 Python......

好吧，我最终解决了我的答案，虽然这个问题确实为我赢得了风滚草徽章......不确定这是不是一件好事！

我设法通过使用 Selenium API 来获得我想要的东西，根据需要提取和解析不同的选择器为 HTML/文本。

相关内容