我有一个相对较大的数据集(+5000 行),其中包含姓名、电子邮件地址和其他字符。
我想只提取电子邮件而不换行。我的第一个想法是通过负正则表达式匹配电子邮件地址,我得到了正确的表达式,但整行匹配会被删除。
以下是数据集的一个示例:
Qxvpbbj <[email protected]>,[email protected]
Vxclvës Wxaunfq <[email protected]>,"""[email protected] <[email protected]>, [email protected] <[email protected]>"""
[email protected],[email protected]
Pivsvgz Semxmkxnu Ps Glymnzedu <[email protected]>,[email protected]
结果如下:
[email protected], [email protected]
[email protected], [email protected], [email protected]
[email protected], [email protected]
[email protected], [email protected]
关于使用软件或方法实现该格式有什么建议吗?
答案1
我已设法使用数据质量软件 DataCleaner 清理数据集。但结果并不完美。