据我所知,验证码是经过滤镜、噪音和其他各种算法扭曲的文本。因此,要确定一个人的阅读能力是否与人一样,你需要将他们的回答与已知答案进行比较。
现在,阅读 ReCaptcha 时,它说显示的单词是那些无法通过 OCR 翻译的单词。此外,recaptcha 正在用于翻译这些图像。它如何判断你的阅读是否正确,还是只是在编造东西?
如果它知道文本中的内容,就不会在 recaptcha 中用作翻译材料。如果它不知道文本中的内容,那么它如何验证您的答案?
我猜想这可能是一些基于概率的分析,在将任何内容标记为已翻译之前,需要使用大量样本。
有人知道这个问题的答案在哪里吗?
答案1
书页基本上是经过照相扫描的,然后使用“光学字符识别”(OCR)转换为文本,并以图像的形式输入到网络上,其中一个单词是 reCAPTCHA 背后的计算机程序所知道的,另一个单词尚不知道。
然后,用户输入两个单词,如果他们解出了已知答案的单词,系统将假定他们的答案对于新的单词是正确的。然后,系统将新的图像提供给其他一些人,让他们以更高的置信度确定原始答案是否正确。因此,该系统是一种自我完善的服务,随着时间的推移会变得越来越好。
答案2
这就是 reCaptcha 让你输入的原因二单词。其中一个单词是已知的,另一个单词是未知的。您是否通过验证码仅取决于您对已知单词的回答。您对另一个(未知)单词的回答将与对同一单词的其他回答一起用于将其转换为已知单词。