我有一个文档,由于来自 PDF,格式很差,在不该出现的地方插入了多余的换行符。我想删除文档中的所有换行符,但下一行开头的指定字符除外(在本例中,全角空格“ ”和左引号“「”)。尽管我阅读了有关 Word 的正则表达式系统,但我还是不知道该怎么做。有人能提供一些建议吗?谢谢。
答案1
只需几个步骤即可完成:
- 将 \r\n<全角空格“ ">(即用于 CR 和/或 LF 的字符,后跟表示全角空格的字符)替换为文档中找不到的异常字符串,例如中青报。
- 将 \r\n<开头的引号“「"> (即用于 CR 和/或 LF 的字符,后跟开头引号的字符)替换为文档中找不到的另一个不寻常的字符串,例如中原网。
- 消除全部剩余 \r\n (CR/LF)。
- 逆向步骤1,即替换中青报用 \r\n" " 表示。
- 逆向执行步骤2,即替换中原网以 \r\n"「" 结尾。
实际上,它节省了有效的EOL 字符,删除不需要的字符,然后恢复有效的字符。
如果需要经常执行此操作,您可以制作一个宏来通过按键完成所有操作。
警告:我对 PDF 文件的经验是,会在需要的地方添加 EOL 字符,以使文档适合页面,例如,在图像周围、断词和添加连字符等。通过上述过程生成的文档可能仍需要手动编辑,但希望可以减少工作量。
答案2
我相信有一个更直接的方法。
- 确保所有换行符都相同。使用“查找和替换”将所有 ^p 更改为 ^l 或反之亦然(^p = 段落回车符 & ^l = 换行符)。在此示例中,我们将所有换行符更改为段落换行符。
- 查找所有 ^p " 并将其替换为 ^l "
- 查找所有 ^p 并将其替换为一个空格。