RECAPTCHA 从哪里获得这些词？

Question

嗯，答案是书籍。

它们可能是从其他语言扫描而来的错误，甚至是作者写错了。

我建议你阅读 Recaptcha 的关于页面。

摘录

为了存档人类知识并使世界更容易获取信息，目前有多个项目正在对计算机时代之前编写的实体书籍进行数字化。书页被扫描成照片，然后使用“光学字符识别”（OCR）转换成文本。转换成文本很有用，因为扫描书籍会产生图像，这些图像很难存储在小型设备上，下载成本高昂，而且无法搜索。问题是 OCR 并不完美。

替代文本

reCAPTCHA 通过将计算机无法读取的单词以 CAPTCHA 的形式发送到 Web 供人类解读，改进了图书数字化的过程。更具体地说，每个无法通过 OCR 正确读取的单词都会放在图像上并用作 CAPTCHA。这是可能的，因为大多数 OCR 程序会在无法正确读取单词时提醒您。

正如我所说，OCR 错误 -

polietry - 最有可能是从 Popliteal 错误扫描出来的 - 一个医学术语。

Answer 1