如何使用 Word 或 Writer 从文档中提取电子邮件 ID

如何使用 Word 或 Writer 从文档中提取电子邮件 ID

我有一个文档 (.doc),其中有数百个电子邮件 ID,这些 ID 随机地放在文本中。如何隔离电子邮件 ID,以便将它们导出到我的 Gmail 联系人中?

我希望使用 Writer 上的正则表达式或使用 Word 上的搜索功能或任何其他方法来解决此问题。

答案1

对于任何正则表达式支持的环境来说,找到一个完整、彻底的解决方案都是一个巨大的挑战,Word/Writer 更是如此。请参阅此文章,了解为什么正则表达式不是解决所有文本/电子邮件匹配问题的灵丹妙药。抛开这个免责声明,让我们看看是否能找到一个切实可行的解决方案……

对我来说,实际的解决方案可能涉及在流程的某个阶段使用正则表达式,但首先要担心数据中是否存在这种可能性:[email protected]@yahoo.com... 如果电子邮件真的是随机分布在文本文件中的,则需要考虑这种情况 - 有可能找到彼此相邻的两封电子邮件,而没有明显的分隔符。它是bob@company[email protected]还是[email protected]初始文本bob@只是胡言乱语?我猜可以找到类似的令人信服的例子。

解决这个问题的合理第一步可能是按照以下思路:

  1. 找到一个我可以接受的电子邮件匹配正则表达式(没有完美的东西!)
  2. 使用该正则表达式在文本文件中找到所有电子邮件,并将它们放在新行上,在开头附加某种标记文本,如“w00t”
  3. 对文件进行排序(使用 :order 命令),将所有“w00t”行(包含我们找到的电子邮件的行)与其余不匹配的垃圾邮件分开
  4. 逐行检查不匹配的行,确保您没有遗漏任何真实数据。如果发现遗漏,请返回并修改步骤 #1 中的正则表达式,或者在继续步骤 #2 之前手动提取这些电子邮件。否则,您可能会将电子邮件(与正则表达式不匹配)拆分成几部分,保存一部分而丢弃另一部分。

相关内容