如何在 PDF 中按正确顺序选择文本

如何在 PDF 中按正确顺序选择文本

我从事化学品安全数据表工作。我的工作是通过复制/粘贴将 PDF 传输到数据库中。

我对某些类型的 PDF 文件有问题,例如这个:https://www.jotun.com/Datasheets/Download?url=%2FSDS%2FSDS__545__Jotun%20Anti-skid__Nor__NO.pdf

当我尝试选择文本时,它会以看似随机的顺序选择它,如下所示: 选定的文本

我尝试使用不同的 PDF 编辑器,但似乎都无法按照正确的顺序选择文本。

我真的很感激这里有人的帮助,因为这将极大地改善我的工作流程。

答案1

Linux:

$ link="https://www.jotun.com/Datasheets/Download?url=%2FSDS%2FSDS__545__Jotun%20Anti-skid__Nor__NO.pdf"
tempfile=/tmp/下载
$ wget -o ${tempfile}.pdf "$link" \
&& pdftotext ${tempfile}.pdf ${tempfile}.txt \
&& 减去 ${tempfile}.txt \
&& rm ${tempfile}。*

以上内容很容易转换为 bash 脚本。

文字显示less

适用于(EC)nr. 的 I samsvar 。 453/2010(REACH),vedlegg II,关于文书的结尾(EU)nr。 2015/830

锡克赫兹数据报
佐敦防滑
注意事项 1:识别木材/木材粘结剂和木材/预应力
1.1 产品标识符
产品目录

: 佐敦防滑

EC 编号
CAS 编号

电话:215-691-6
: 1344-28-1

产品代码

:545

产品说明
产品类型
Andre 识别人

:惰性材料。
: 快速地。
:我不同意。

产品注册号:Under anmeldelse

1.2 相关、识别的租赁条件,用于租赁或租赁无效
识别布鲁克
布鲁克斯和过度膨胀 - 工业布鲁克
Brukes i overflatebelegg - 专业布鲁克
工业供应商,应用领域广泛。
...

Windows:安装并使用“西弗吉尼亚海岸“才能使用上述内容。

答案2

问题的根源在于 PDF 的构建方式。作者遇到了两列对齐的问题,并采取了将文本分成两个垂直文本框的奇怪解决方案。

下面是 PDF 在 Adob​​e Acrobat Pro 编辑模式下的屏幕截图。您可以清楚地看到文本框。请注意当我尝试在两个框中选择文本时会发生什么:

在此处输入图片描述

您将看到,一次只能在一个框内进行选择。Adobe Acrobat Pro 不允许跨文本框选择文本,只能在一个框内选择文本。当您尝试跨框选择时,任何 PDF 查看器都可能出现奇怪的情况,正如您所发现的。

我尝试在 Adob​​e Acrobat Pro 中将文件转换为各种可能更易于选择的格式。唯一有效的保存模式是“文本(纯文本)”。在此文本文件中进行选择确实按预期进行:

在此处输入图片描述

答案是找到合适的 PDF 转文本转换器。我曾经写过这样的产品,但我的产品也在这个 PDF 上失败了,因为它会给出第一个文本框中的所有文本,然后给出第二个文本框中的所有文本。知道两个文本框需要分成几部分,然后将它们组合成行,这绝非易事。

为了给您提供服务,我已发布此 PDF 的全文 在 pastebin 上。我没有将 pastebin 设为永久的,所以您无需等待即可下载。希望这对您有所帮助。

相关内容