带有 GUI 的网页提取软件和蜘蛛

带有 GUI 的网页提取软件和蜘蛛

我正在寻找一个电子邮件和数据提取程序来为特定行业建立邮件列表,我正在寻找一个具有简单的 GUI 但具有广泛的功能并且易于在 ubuntu 上使用的程序。

答案1

您可以先使用 HTTrack 之类的工具来创建站点的本地静态镜像。然后cd进入本地镜像并grep输入电子邮件地址:

grep -srhwoIiE "[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}" . \
| tr '[:upper:]' '[:lower:]' \
| sort -u

可能有更好的电子邮件正则表达式(由于电子邮件 RFC 非常松散,所以它非常困难)但这应该可以让你开始。

相关内容