如何从乐谱 PDF 中提取文本（仅限文本）？

2024-6-14 • tag-icon

pdf extract ocr

如何从乐谱 PDF 中提取文本（仅限文本）？

我有一本 PDF 乐谱书，需要从中提取文本。我不需要提取音符或任何东西，只需要提取文本的诗句。

我无法单独选择一行文本——它总是会选择页面的其他部分。将整个页面一起复制会使所有内容乱序。音节之间还有连字符，我想删除它们。

这是 PDF 中的第一首歌曲： http://bradshawfamily.net/~samuel/zzz/34832_kek_h1.pdf

答案1

我的第一个想法是将整个文本复制并粘贴到 notepad++ 中，然后执行一些正则表达式操作以仅过滤有效字符。但失败了，因为粘贴后行变得乱七八糟。
再想想：使用在线 OCR，例如在线ocr或者ocrconvert.com 这并不像我想象的那么糟糕。但你还是得删除一些误解

^{单击查看完整示例}

相关内容