如何从网站下载网页内提供的电子邮件地址?
我需要扫描该网站的所有页面 - 父母、孩子等。目标是获取网站不同页面内引用的不同电子邮件地址。
该网站也有一个 robots.txt 文件。
答案1
它并不像你想要的那么简单。
wget
您可能想从网络邮件界面下载电子邮件。这个界面使用了很多浏览器可以做的复杂事情,但 wget 不能(或者只能通过极端的脚本编写)。
然而,大多数网络邮件还支持 MAP 或 POP,使用它们您可以相对轻松地做到这一点。
如果不这样做,那么使用与wget
.例如,与硒您可以自动化真正的浏览器,尽管配置相对复杂,并且消耗更多资源。本质上,你需要对其进行编程。
对于你的情况,我建议进入 POP3/IMAP 方向。