如何查看两个不同文档中存在的电子邮件地址？

2024-9-26 • tag-icon

如何查看两个不同文档中存在的电子邮件地址？

我有几个 .PDF 和 .DOC 文档，其中包含数千个电子邮件地址。我想知道哪些电子邮件地址是重复的。是的，文档中的内容不仅仅是电子邮件地址。

我想查看（而不是删除）两个不同文档中存在的实际电子邮件地址。当我说我想“查看”时，这意味着我想收集两个不同文档中存在的实际电子邮件地址。我不介意程序从两个不同的文档中“删除”重复项，只要我能看到这些重复的电子邮件地址，而不是简单地删除，而且我不知道删除了什么。我想知道哪些电子邮件地址是重复的。

我怎样才能做到这一点？

答案1

这些文件可能除了电子邮件地址之外还包含其他内容？

非脚本方法是

将电子邮件地址提取到文件
种类
删除重复项
（2）与（3）的结果不同

1）将文档转换为电子邮件地址列表

安装记事本++并将您的文档复制到其中
打开“查找和替换”
查找：(\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}\b)//不太准确的电子邮件正则表达式
代替：\r\n$&\r\n
确保选中“正则表达式”选项

现在，每封电子邮件都单独成行。切换到“标记”选项卡并重复搜索，这次“为行添加书签”

现在删除未标记的行：Search > Bookmark > Remove Unmarked Lines

2）对行进行排序

Edit -> Line Operations -> Sort Lines Lexographically Ascending

保存此文件的副本。

3）删除重复项

安装文本特效Notepad++ 插件

再次排序，但选中“仅对唯一输出进行排序”

4）差异

使用“差异工具”（合并或者 ”相比于“Notepad++ 插件）将“有重复项的排序列表”与“没有重复项的排序列表”进行比较，以得出重复电子邮件的列表

归功于https://www.kniko.net/how-to-extract-email-addresses-from-a-text-file-using-notepad-with-no-coding-at-all/用于图像和电子邮件正则表达式

答案2

您可以使用在线服务：

选择文档中的所有文本
使用浏览器导航至网页和文本的电子邮件提取器
粘贴文本
在“步骤 3：提取电子邮件”下，点击提取
电子邮件将会显示。

相关内容