电子邮件数据集的数据预处理

电子邮件数据集的数据预处理

我有一个相对较大的数据集(+5000 行),其中包含姓名、电子邮件地址和其他字符。

我想只提取电子邮件而不换行。我的第一个想法是通过负正则表达式匹配电子邮件地址,我得到了正确的表达式,但整行匹配会被删除。

以下是数据集的一个示例:

Qxvpbbj <[email protected]>,[email protected]
Vxclvës Wxaunfq <[email protected]>,"""[email protected] <[email protected]>, [email protected] <[email protected]>"""
[email protected],[email protected]
Pivsvgz Semxmkxnu Ps Glymnzedu <[email protected]>,[email protected]

结果如下:

[email protected], [email protected]
[email protected], [email protected], [email protected]   
[email protected], [email protected]
[email protected], [email protected]

关于使用软件或方法实现该格式有什么建议吗?

答案1

我已设法使用数据质量软件 DataCleaner 清理数据集。但结果并不完美。

相关内容