有没有办法删除所有缩进(左、右、悬挂等)、制表符、边距和任何其他页面格式化项目?

有没有办法删除所有缩进(左、右、悬挂等)、制表符、边距和任何其他页面格式化项目?

我刚刚使用 OCR 软件将一份包含 20 多页的文档扫描到 Word 2007 中。结果是一堆带有各自页边距和缩进的页面。我似乎能够重置页边距,但缩进之类的东西似乎与页边距有关。因此,减小页边距大小会导致一些段落超出页面左侧,因为缩进被设置为负值。我想清除所有页面格式并保留字体、字体大小、字体颜色、粗体、下划线、斜体等视觉格式。这样,我就可以从头开始并按照我想要的方式重新格式化页面布局。

答案1

我不确定这是否适合您,但您可以使用其他基于纯文本的格式(如 TeX 或 HTML),并尝试通过脚本语言(如 Perl 或 Python)过滤掉信息(或者,只要输出足够“简单”,即使使用智能文本编辑器和正则表达式也可以完成这项工作)。

请注意,虽然您可以使用 Word 导出为该格式,但如果您可以在 OCR 软件中立即使用该格式,我肯定会先尝试该格式。作为所见即所得编辑器的一般规则,以标记格式导出的文件往往非常复杂。

相关内容