我从事化学品安全数据表工作。我的工作是通过复制/粘贴将 PDF 传输到数据库中。
我对某些类型的 PDF 文件有问题,例如这个:https://www.jotun.com/Datasheets/Download?url=%2FSDS%2FSDS__545__Jotun%20Anti-skid__Nor__NO.pdf
我尝试使用不同的 PDF 编辑器,但似乎都无法按照正确的顺序选择文本。
我真的很感激这里有人的帮助,因为这将极大地改善我的工作流程。
答案1
Linux:
$ link="https://www.jotun.com/Datasheets/Download?url=%2FSDS%2FSDS__545__Jotun%20Anti-skid__Nor__NO.pdf" tempfile=/tmp/下载 $ wget -o ${tempfile}.pdf "$link" \ && pdftotext ${tempfile}.pdf ${tempfile}.txt \ && 减去 ${tempfile}.txt \ && rm ${tempfile}。*
以上内容很容易转换为 bash 脚本。
文字显示less
:
适用于(EC)nr. 的 I samsvar 。 453/2010(REACH),vedlegg II,关于文书的结尾(EU)nr。 2015/830 锡克赫兹数据报 佐敦防滑 注意事项 1:识别木材/木材粘结剂和木材/预应力 1.1 产品标识符 产品目录 : 佐敦防滑 EC 编号 CAS 编号 电话:215-691-6 : 1344-28-1 产品代码 :545 产品说明 产品类型 Andre 识别人 :惰性材料。 : 快速地。 :我不同意。 产品注册号:Under anmeldelse 1.2 相关、识别的租赁条件,用于租赁或租赁无效 识别布鲁克 布鲁克斯和过度膨胀 - 工业布鲁克 Brukes i overflatebelegg - 专业布鲁克 工业供应商,应用领域广泛。 ...
Windows:安装并使用“西弗吉尼亚海岸“才能使用上述内容。
答案2
问题的根源在于 PDF 的构建方式。作者遇到了两列对齐的问题,并采取了将文本分成两个垂直文本框的奇怪解决方案。
下面是 PDF 在 Adobe Acrobat Pro 编辑模式下的屏幕截图。您可以清楚地看到文本框。请注意当我尝试在两个框中选择文本时会发生什么:
您将看到,一次只能在一个框内进行选择。Adobe Acrobat Pro 不允许跨文本框选择文本,只能在一个框内选择文本。当您尝试跨框选择时,任何 PDF 查看器都可能出现奇怪的情况,正如您所发现的。
我尝试在 Adobe Acrobat Pro 中将文件转换为各种可能更易于选择的格式。唯一有效的保存模式是“文本(纯文本)”。在此文本文件中进行选择确实按预期进行:
答案是找到合适的 PDF 转文本转换器。我曾经写过这样的产品,但我的产品也在这个 PDF 上失败了,因为它会给出第一个文本框中的所有文本,然后给出第二个文本框中的所有文本。知道两个文本框需要分成几部分,然后将它们组合成行,这绝非易事。
为了给您提供服务,我已发布此 PDF 的全文 在 pastebin 上。我没有将 pastebin 设为永久的,所以您无需等待即可下载。希望这对您有所帮助。