我有几个 .PDF 和 .DOC 文档,其中包含数千个电子邮件地址。我想知道哪些电子邮件地址是重复的。是的,文档中的内容不仅仅是电子邮件地址。
我想查看(而不是删除)两个不同文档中存在的实际电子邮件地址。当我说我想“查看”时,这意味着我想收集两个不同文档中存在的实际电子邮件地址。我不介意程序从两个不同的文档中“删除”重复项,只要我能看到这些重复的电子邮件地址,而不是简单地删除,而且我不知道删除了什么。我想知道哪些电子邮件地址是重复的。
我怎样才能做到这一点?
答案1
这些文件可能除了电子邮件地址之外还包含其他内容?
非脚本方法是
- 将电子邮件地址提取到文件
- 种类
- 删除重复项
- (2)与(3)的结果不同
1)将文档转换为电子邮件地址列表
- 安装记事本++并将您的文档复制到其中
- 打开“查找和替换”
- 查找:
(\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}\b)
//不太准确的电子邮件正则表达式 - 代替:
\r\n$&\r\n
- 确保选中“正则表达式”选项
现在,每封电子邮件都单独成行。切换到“标记”选项卡并重复搜索,这次“为行添加书签”
现在删除未标记的行:Search > Bookmark > Remove Unmarked Lines
2)对行进行排序
Edit -> Line Operations -> Sort Lines Lexographically Ascending
保存此文件的副本。
3)删除重复项
安装文本特效Notepad++ 插件
4)差异
使用“差异工具”(合并或者 ”相比于“Notepad++ 插件)将“有重复项的排序列表”与“没有重复项的排序列表”进行比较,以得出重复电子邮件的列表
归功于https://www.kniko.net/how-to-extract-email-addresses-from-a-text-file-using-notepad-with-no-coding-at-all/用于图像和电子邮件正则表达式
答案2
您可以使用在线服务:
- 选择文档中的所有文本
- 使用浏览器导航至 网页和文本的电子邮件提取器
- 粘贴文本
- 在“步骤 3:提取电子邮件”下,点击提取
- 电子邮件将会显示。