有没有一个地方可以让我下载尽可能多的垃圾邮件,这些垃圾邮件来自世界各地?
澄清一下:我是不是寻找包含垃圾邮件哈希值或包含发送垃圾邮件的发件人/网络 IP 地址的数据库。我只想尽可能多地获取未经修改的真实垃圾邮件。
例如,这可能是一个巨大的 mbox 文件,其中包含数千或数百万封原始状态的此类电子邮件。是否有一些反垃圾邮件组织或公司提供此类数据的访问权限?
更新:
我不是英语母语人士,只是不知道正确的关键词。只需在 Google 上搜索“垃圾邮件语料库”或“垃圾邮件语料库”即可。希望这可以帮助遇到同样问题的人,并希望现在没有理由再投反对票了……
答案1
我想垃圾邮件杀手维护了垃圾邮件/非垃圾邮件的下载,称为语料库。但您确实希望使用自己的电子邮件进行训练。否则,您将使用过时的电子邮件来训练您的过滤器。
更新:看来 SpamAssassin 现在正在使用已提交的语料库。但也有很多公开的语料库: