word文档中的这个非打印字符是什么?

word文档中的这个非打印字符是什么?

我有一个 word 文档(v16.57),其中有些地方有一个带段落标记的新行(“Protection”之后),而其他地方有一个点(例如“Station”或“USA”之后)。

在此处输入图片描述

它看起来不像是一个空格,因为当我搜索空格时,它们会在单词之间突出显示,但末尾的那些点却没有。它也不是换行符('^l')。而且无法在 Word 中突出显示。

我正在尝试在 R 中解析该文档,但无论我如何读取它,它都无法识别其中的任何特殊字符;相反,它将所有这些行合并为没有分隔符的一行。

如果我将文档复制粘贴到纯文本编辑器中,则点字符所在的位置没有换行符:

在此处输入图片描述

如果我将其粘贴到 Excel 中,无论使用何种类型的“选择性粘贴”,都会发生同样的事情。

在此处输入图片描述

更新:

看起来这些行的断行是因为边距缩进设置。如果我将左右边距缩进都设置为 0,这些行就不会再在同一位置断行:

在此处输入图片描述

查看从 word 文件粘贴的文本文件,它们的十六进制值是20,它是一个空格(我想?)。

让我感到困惑的是,为什么页边距会导致断线出现在应该出现的位置,比如将街道地址与城镇、邮编、国家/地区分开。我认为断线出现在比页边距宽的一定数量的字符之后(当行很长时就会出现这种情况),但它总是在正确的位置断线以分隔地址行。

无论如何,有没有办法解析带有换行符的 Word 文档文本,并使它们在 Word 文档和那些点中可见?

答案1

字符值0x0a是换行符。这是 Linux 上的行尾字符,但在 Windows 上,需要额外的回车符才能使其成为真正的行尾。

Windows 上的某些文本编辑器会将其显示为行尾,而其他文本编辑器则不会。

我不知道为什么有人会在文本文档中随意添加换行符。也许你应该在网上发布一些例子。

相关内容