我想训练我的 SpamAssasin 过滤器,并且我从该网站下载了 2015 年 1 月至 2015 年 11 月的所有垃圾邮件 tar:untroubled.org/垃圾邮件/
另外,我从我的个人 gmail 帐户下载了我的普通邮件和垃圾邮件。但是我从 gmail 下载的所有普通邮件大约有 2500 封,而来自 untroubled.org 的这 11 个 tar 包含大约 410000 封邮件。因此,普通邮件/垃圾邮件比例约为 1:160,因此 SpamAssassin 过滤器将过于偏向垃圾邮件。
另一方面,那种 SPAM 数据集站点主要被认为是针对 SPAM 研究人员的,而不是针对系统管理员的。
所以,我的问题是,系统管理员通常会做什么,或者推荐的做法是什么?他们会使用这类数据集吗?这真的那么危险吗?
答案1
考虑到 untroubled.org SPAM 收集方法覆盖范围很广,我认为使用该数据训练 Spamassassin 不会有任何问题。
您应该考虑电子邮件服务器的范围,并决定是否需要手动扫描大量已知垃圾邮件。SA 根据其内部规则在过滤垃圾邮件方面做得相当不错,但如果您有时间和意愿手动扫描这些邮件,它不会给您的服务器带来任何问题。