.pdf 文件有奇怪的标记行为

.pdf 文件有奇怪的标记行为

正如你在下面的图片中看到的,我有一个.pdf 文件当我尝试标记和引用其部分文本时,它的行为很奇怪。我将其导入 Citavi 5,尝试使用 doPDF 8、Microsoft Print to PDF 和 OpenText PDF 转换器打印文件,行为保持不变。我也尝试了其他来源,但似乎它们都基于同一个文件。

例子

直接从.pdf 文件复制时,结果如下所示:

总体而言,触觉对于我们来说,感知说话可能比我们想象的要好,而其他人则接近随意的大多数我计划的任务。T wa 率 de

当我使用 Microsoft XPS Document Writer 时,输出如下所示,其中有些字母被标记为重复。转换为 .txt 后看起来相同。

XPS 文件

从转换为 .txt 或 .xps 的文件复制时,它看起来像这样:

结果

总体而言,参与者发现该设备易于使用。所有人都喜欢触觉传感器(“易于使用”)和按钮(“易于找到”、“触觉反馈”),但没有人喜欢压力传感器。对于输出组件,所有人都将 LED 评为最低

因此,转换为 .txt 是最好的方法,但我仍然必须查看整个引文以删除双字符。

有人知道这种行为吗?以及我该怎么做才能获得一个可以轻松引用的文件?

答案1

如果您可以使用 Adob​​e 软件,这在一定程度上是可行的。我在 Photoshop 中打开了您的 PDF,仅将其输出为图像(扫描文档也会产生同样的效果),并使用 Acrobat Pro 的 OCR(工具>识别文​​本)在文档中查找文本形状的元素。然后您可以像平常一样突出显示和复制/粘贴。

输出,例如复制/粘贴 研究结束后,参与者填写了一份调查问卷,分享他们在公共环境中使用该设备时的印象以及他们收到的任何反应。

至于为什么会发生这种情况,我无法帮助您,检查原始 PDF 中的文本元素确实显示有问题的页面具有分割文本字段,而不是像您期望的那样具有连续字段,而其他突出显示的页面通常不会出现此问题。

我不太熟悉您提到的软件,但如果它们具有类似的功能(例如文本识别),我想它们应该具有相同的功能。希望这能有所帮助!

相关内容