RECAPTCHA 从哪里获得这些词?

RECAPTCHA 从哪里获得这些词?

我只是出于好奇才问的。

今天我在进行 RECAPTCHA 验证时遇到了几个非常奇怪的单词:

  • 印地尔姆斯
  • 苏姆贝塔特
  • 政治
  • 格雷沃尔法

如果这些是任何语言中的合理单词,Google 搜索应该会找到一些在句子中使用这些单词的合理页面。但是,上述单词的 Google 搜索结果数量分别为 3、0、27 和 0。这些结果显然是其他合理单词的拼写错误,不太可能。

那么 RECAPTCHA 从哪里得到这些词呢?(注意:“书籍。”不是一个充分的答案:) 我正在寻找看似不存在的单词高出现率的解释......)

答案1

嗯,答案是书籍。

它们可能是从其他语言扫描而来的错误,甚至是作者写错了。

我建议你阅读 Recaptcha 的关于页面

摘录

为了存档人类知识并使世界更容易获取信息,目前有多个项目正在对计算机时代之前编写的实体书籍进行数字化。书页被扫描成照片,然后使用“光学字符识别”(OCR)转换成文本。转换成文本很有用,因为扫描书籍会产生图像,这些图像很难存储在小型设备上,下载成本高昂,而且无法搜索。问题是 OCR 并不完美。

替代文本

reCAPTCHA 通过将计算机无法读取的单词以 CAPTCHA 的形式发送到 Web 供人类解读,改进了图书数字化的过程。更具体地说,每个无法通过 OCR 正确读取的单词都会放在图像上并用作 CAPTCHA。这是可能的,因为大多数 OCR 程序会在无法正确读取单词时提醒您。

编辑

正如我所说,OCR 错误 -

我相信 Indelms 应该是印度人 -摘自《美国法典》第 40 卷第 2 部分

polietry - 最有可能是从 Popliteal 错误扫描出来的 - 一个医学术语。

相关内容