当我从 Word 或 TextEdit 导出文件时,我会得到非常臃肿的 HTML,style
每个段落都充满了疯狂的标签,所以我甚至无法手动清理它。
我唯一想保留的信息是:
<h1>, <h2>, <h3>, <p>
标签。对齐(居中、左、右)
链接,外部和内部(用于目录)
<img>
标签
答案1
我曾经听说 Microsoft Word 的博客功能导出的 HTML 比“另存为”菜单下的过滤 HTML 还要好得多。
要尝试,请转到 Word Ribbion -> 发布 -> 博客。您需要设置一个虚拟帐户,但如果结果足够好,那么这可能是值得的。
否则,由于您的预期输出听起来非常简单,您甚至可能需要考虑创建自己的 VBA 脚本,该脚本按顺序遍历文档中的每个元素并从每个元素创建一个 HTML 字符串,然后将其保存到磁盘。