我只是出于好奇才问的。
今天我在进行 RECAPTCHA 验证时遇到了几个非常奇怪的单词:
- 印地尔姆斯
- 苏姆贝塔特
- 政治
- 格雷沃尔法
如果这些是任何语言中的合理单词,Google 搜索应该会找到一些在句子中使用这些单词的合理页面。但是,上述单词的 Google 搜索结果数量分别为 3、0、27 和 0。这些结果显然是其他合理单词的拼写错误,不太可能。
那么 RECAPTCHA 从哪里得到这些词呢?(注意:“书籍。”不是一个充分的答案:) 我正在寻找看似不存在的单词高出现率的解释......)
答案1
嗯,答案是书籍。
它们可能是从其他语言扫描而来的错误,甚至是作者写错了。
我建议你阅读 Recaptcha 的关于页面。
摘录
为了存档人类知识并使世界更容易获取信息,目前有多个项目正在对计算机时代之前编写的实体书籍进行数字化。书页被扫描成照片,然后使用“光学字符识别”(OCR)转换成文本。转换成文本很有用,因为扫描书籍会产生图像,这些图像很难存储在小型设备上,下载成本高昂,而且无法搜索。问题是 OCR 并不完美。
reCAPTCHA 通过将计算机无法读取的单词以 CAPTCHA 的形式发送到 Web 供人类解读,改进了图书数字化的过程。更具体地说,每个无法通过 OCR 正确读取的单词都会放在图像上并用作 CAPTCHA。这是可能的,因为大多数 OCR 程序会在无法正确读取单词时提醒您。
编辑
正如我所说,OCR 错误 -
我相信 Indelms 应该是印度人 -摘自《美国法典》第 40 卷第 2 部分
polietry - 最有可能是从 Popliteal 错误扫描出来的 - 一个医学术语。