在 OS X 上将 .doc 或 .rtf 转换为干净的 HTML

在 OS X 上将 .doc 或 .rtf 转换为干净的 HTML

当我从 Word 或 TextEdit 导出文件时,我会得到非常臃肿的 HTML,style每个段落都充满了疯狂的标签,所以我甚至无法手动清理它。

我唯一想保留的信息是:

  • <h1>, <h2>, <h3>, <p>标签。

  • 对齐(居中、左、右)

  • 链接,外部和内部(用于目录)

  • <img>标签

答案1

我曾经听说 Microsoft Word 的博客功能导出的 HTML 比“另存为”菜单下的过滤 HTML 还要好得多。

要尝试,请转到 Word Ribbion -> 发布 -> 博客。您需要设置一个虚拟帐户,但如果结果足够好,那么这可能是值得的。

否则,由于您的预期输出听起来非常简单,您甚至可能需要考虑创建自己的 VBA 脚本,该脚本按顺序遍历文档中的每个元素并从每个元素创建一个 HTML 字符串,然后将其保存到磁盘。

相关内容