我有一本 PDF 乐谱书,需要从中提取文本。我不需要提取音符或任何东西,只需要提取文本的诗句。
我无法单独选择一行文本——它总是会选择页面的其他部分。将整个页面一起复制会使所有内容乱序。音节之间还有连字符,我想删除它们。
这是 PDF 中的第一首歌曲: http://bradshawfamily.net/~samuel/zzz/34832_kek_h1.pdf
答案1
我的第一个想法是将整个文本复制并粘贴到 notepad++ 中,然后执行一些正则表达式操作以仅过滤有效字符。但失败了,因为粘贴后行变得乱七八糟。
再想想:使用在线 OCR,例如在线ocr或者ocrconvert.com 这并不像我想象的那么糟糕。但你还是得删除一些误解