我目前正在进行一项涉及 Stack Exchange 内容的研究,并试图找到一种有效的方法将内容纳入我的 CAQDAS。我使用的 CAQDAS 是 DeDoose。
我的问题是,它对 HTML 的支持相当差,无法保留格式,所以很乱。我尝试了各种选项,例如打印为 PDF(但 PDF 支持也相当差)。所以我想把它变成富文本。
我有数千页需要处理。我查看了一个名为 ReaderView 的 Chrome 扩展程序。它做得很好,但删除了一些我需要的东西,比如格式和用户信息。目前,凭借我的技能,我能想到的最佳选择是在 InDesign 中复制粘贴每个页面的 HTML,并使用 GREP 创建脚本来删除我不需要的东西。
我梦想的应用程序是一个 HTML 编辑器,我可以在其中取消选中所有我不想要的 HTML/CSS 内容并将其导出为 RTF 或类似的东西......
你们有谁知道更好的方法来做到这一点?
这看起来是个好线索但我根本不懂 Python......
答案1
好吧,我最终解决了我的答案,虽然这个问题确实为我赢得了风滚草徽章......不确定这是不是一件好事!
我设法通过使用 Selenium API 来获得我想要的东西,根据需要提取和解析不同的选择器为 HTML/文本。