如何从乐谱 PDF 中提取文本(仅限文本)?

如何从乐谱 PDF 中提取文本(仅限文本)?

我有一本 PDF 乐谱书,需要从中提取文本。我不需要提取音符或任何东西,只需要提取文本的诗句。

我无法单独选择一行文本——它总是会选择页面的其他部分。将整个页面一起复制会使所有内容乱序。音节之间还有连字符,我想删除它们。

这是 PDF 中的第一首歌曲: http://bradshawfamily.net/~samuel/zzz/34832_kek_h1.pdf

答案1

  1. 我的第一个想法是将整个文本复制并粘贴到 notepad++ 中,然后执行一些正则表达式操作以仅过滤有效字符。但失败了,因为粘贴后行变得乱七八糟。

  2. 再想想:使用在线 OCR,例如在线ocr或者ocrconvert.com 这并不像我想象的那么糟糕。但你还是得删除一些误解

    在此处输入图片描述
    单击查看完整示例

相关内容