我将几千条记录存储在一个文本文件中,需要将它们逐条输入到(基于 JavaScript 的)网页中。输入每条记录后,我需要解析返回的数据,然后返回初始页面。问题是网页使用 Captcha 作为其登录序列的一部分(只有一个 Captcha,然后我将保持登录状态,直到它因不活动而超时)。我显然希望能够编写脚本,但由于 Captcha,使用 Lynx 似乎是不可能的。这是我每年要做几次的事情,所以在我看来,最初的努力是值得的。
有什么方法可以做到这一点?我非常熟悉 Perl 和 shell 脚本,但如果有必要,我愿意学习另一种脚本语言。首选平台是 Windows,但我当然可以在 Cygwin 或 Linux for Windows 下运行它(如果绝对必要,也可以使用 Mac 来代替)。
答案1
在没有 OCR 的情况下,没有可靠的方法可以持续击败 CAPTCHA。看起来你是在尝试通过纯粹的机会来做到这一点。从概率的角度考虑这个问题,你很快就会意识到这几乎是不可能的,甚至更不可能持续复制。
如果你只想做一次,然后保持登录状态并模拟人类活动,那么这是现实的。去图书馆看看硒它可以与多种编程语言一起使用。我认为你可以用 Perl 来实现,但用 Python 来实现可能更容易。