当我的邮件设置检测到邮件是垃圾邮件时,它会将其添加*SPAM*
到主题中。现在我想通过在我的垃圾邮件语料库上训练贝叶斯过滤器来改进它。
如果我将这些数千封邮件发送给sa-learn
,即使它们的主题中仍有 ,这是否*SPAM*
有效?或者它是否会告诉过滤器“只有标题中包含 ,才是垃圾邮件*SPAM*
”,这会适得其反吗?
答案1
根据手册页对于sa-learn
,这样就没问题了。
如果您要学习的邮件已经通过 SpamAssassin 过滤,学习器将对此进行补偿。实际上,如果您事先对每封邮件运行 spamassassin -d,它会学习每封邮件的样子。