我正在尝试开发一个布局感知 OCR 系统。我想通过使用某些布局创建受控随机文本来对系统的各个部分进行单元测试。之后,生成的图像将经历受控的恶化以模拟扫描过程。由于随机但已知的文本将可用,我将能够训练我的布局/OCR 系统。
答案1
古腾堡项目有大量的英文文本。虽然不是随机的,但数量还是很多。
我正在尝试开发一个布局感知 OCR 系统。我想通过使用某些布局创建受控随机文本来对系统的各个部分进行单元测试。之后,生成的图像将经历受控的恶化以模拟扫描过程。由于随机但已知的文本将可用,我将能够训练我的布局/OCR 系统。
古腾堡项目有大量的英文文本。虽然不是随机的,但数量还是很多。