我正在使用 Word2007 创建 RTF 文件。最后,我想获取该文件的文本源,例如{\rtf1\ansi\ansicpg1252\deff0\deflang1033{\fonttbl{\f0\fnil\fcharset0 Verdana;}}...
以下是我创建空白 RTF 文件的方法:
- 通过上下文菜单新建一个txt文件。
- 将其扩展名更改为 rtf。
- 用Word2007打开该文件。
- 输入一些字符并将其删除,然后保存。
我如何获取源代码:
- 使用记事本打开 RTF 文件
然后大量的人物结尾出现,fffff0000
让我抓狂……
有人知道为什么会发生这种情况吗?
谢谢
编辑
我正在使用 iText2.1.5(一个处理 PDF 的 Java 库)从 RTF 生成 PDF。该程序可以很好地处理旧的测试 RTF 文件,该文件看起来比我现在从 word2007 中获得的文件干净得多。我只是为该程序创建了更多的测试 RTF 文件,但结果发现它无法识别来自 word 2007 的源。
我想也许我应该升级 iText 或降级 Word(也许旧的测试文件是由 word2003 生成的?)。但我现在没有太多时间。
答案1
最好的办法是阅读RTF 规格。此外,Wordpad
默认情况下会保存为 RTF,而且相对干净。Word 有很多元数据,包括样式等,这会使文件变得臃肿。在 Word 中保存为 HTML 时也会发生同样的情况;这是 Web 开发人员的祸根,以至于有专门的程序来清理 Word HTML 文件。
基本上,Word 会添加所有这些元数据,以便当您在 Word 中重新打开文件时,尽可能多的(Word 特定的)信息会被保留。
如果你能告诉我们为什么您想以纯文本形式打开 RTF 文件,我可能会提供更多帮助。