如何查看两个不同文档中存在的电子邮件地址?

如何查看两个不同文档中存在的电子邮件地址?

我有几个 .PDF 和 .DOC 文档,其中包含数千个电子邮件地址。我想知道哪些电子邮件地址是重复的。是的,文档中的内容不仅仅是电子邮件地址。

我想查看(而不是删除)两个不同文档中存在的实际电子邮件地址。当我说我想“查看”时,这意味着我想收集两个不同文档中存在的实际电子邮件地址。我不介意程序从两个不同的文档中“删除”重复项,只要我能看到这些重复的电子邮件地址,而不是简单地删除,而且我不知道删除了什么。我想知道哪些电子邮件地址是重复的。

我怎样才能做到这一点?

答案1

这些文件可能除了电子邮件地址之外还包含其他内容?

非脚本方法是

  1. 将电子邮件地址提取到文件
  2. 种类
  3. 删除重复项
  4. (2)与(3)的结果不同

1)将文档转换为电子邮件地址列表

  • 安装记事本++并将您的文档复制到其中
  • 打开“查找和替换”
  • 查找:(\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}\b)//不太准确的电子邮件正则表达式
  • 代替:\r\n$&\r\n
  • 确保选中“正则表达式”选项

现在,每封电子邮件都单独成行。切换到“标记”选项卡并重复搜索,这次“为行添加书签” 使用 notepad++ 标记功能

现在删除未标记的行:Search > Bookmark > Remove Unmarked Lines

2)对行进行排序

Edit -> Line Operations -> Sort Lines Lexographically Ascending

保存此文件的副本。

3)删除重复项

安装文本特效Notepad++ 插件

再次排序,但选中“仅对唯一输出进行排序” 文本特效

4)差异

使用“差异工具”(合并或者 ”相比于“Notepad++ 插件)将“有重复项的排序列表”与“没有重复项的排序列表”进行比较,以得出重复电子邮件的列表

归功于https://www.kniko.net/how-to-extract-email-addresses-from-a-text-file-using-notepad-with-no-coding-at-all/用于图像和电子邮件正则表达式

答案2

您可以使用在线服务:

  • 选择文档中的所有文本
  • 使用浏览器导航至 网页和文本的电子邮件提取器
  • 粘贴文本
  • 在“步骤 3:提取电子邮件”下,点击提取
  • 电子邮件将会显示。

相关内容