电子邮件数据集的数据预处理

2024-6-17 • tag-icon

我有一个相对较大的数据集（+5000 行），其中包含姓名、电子邮件地址和其他字符。

我想只提取电子邮件而不换行。我的第一个想法是通过负正则表达式匹配电子邮件地址，我得到了正确的表达式，但整行匹配会被删除。

以下是数据集的一个示例：

Qxvpbbj <[email protected]>,[email protected]
Vxclvës Wxaunfq <[email protected]>,"""[email protected] <[email protected]>, [email protected] <[email protected]>"""
[email protected],[email protected]
Pivsvgz Semxmkxnu Ps Glymnzedu <[email protected]>,[email protected]

结果如下：

[email protected], [email protected]
[email protected], [email protected], [email protected]   
[email protected], [email protected]
[email protected], [email protected]

关于使用软件或方法实现该格式有什么建议吗？

答案1

我已设法使用数据质量软件 DataCleaner 清理数据集。但结果并不完美。

答案1

相关内容