Spamassassin 工作但不学习？贝叶斯过滤器准确率没有提高

Question

结果垃圾邮件刺客贝叶斯训练存储在由一些文件组成的数据库中，通常存储在运行它的用户的主目录中。如果您与其他用户通话，则您将无法访问/更新相同的数据集。

_{（先前评论的扩展版本）}

为了实现特权分离，垃圾邮件刺客通常在单独的用户下运行，例如debian-spamd或amavis，因此在自动学习期间，该用户的数据库将被更新。如果您希望手动更新数据库，则可能需要指定正确的用户，否则您只会将训练数据保存到另一个不相关的数据库中。

怎么分辨？如果你有两个训练数据文件实例（备份除外），你一直在调用垃圾邮件刺客在两个不同的用户下（可能一个来自您的邮件服务器，一个来自您的shell）：

# find / -name bayes_toks
/var/lib/amavis/.spamassassin/bayes_toks
/root/.spamassassin/bayes_toks

这两个文件可能都有最近的修改时间戳，因为一旦数据库有足够的种子，spamassassin 可能选择足够明确标识的邮件自动列车即无需手动操作即可从收到的邮件中学习令牌（此行为可以配置，并且通常您希望启用它）。

怎么修？将相同的邮件提供给正确的数据库 - 通过sa-learn从邮件服务器调用时使用的用户/homedir 进行调用（核实这样，文件夹名称可能与用户名不匹配！）：

sudo -H -u amavis sa-learn --no-sync --spam /var/vmail/$domain/$user/Maildir/.Junk/{cur,new} >> /var/log/sa-learn.log 2>&1
sudo -H -u amavis sa-learn --no-sync --ham /var/vmail/$domain/$user/Maildir/{cur} >> /var/log/sa-learn.log 2>&1
sudo -H -u amavis sa-learn --sync >> /var/log/sa-learn.log 2>&1

我不建议合并无意中拆分的数据集，因为内部文件格式可能有点混乱（尽管它能--backup使用和倾倒破坏性地使用覆盖--restore），而对相同的垃圾邮件数据进行重新训练则要简单得多，并且sa-learn旨在处理一遍又一遍地发送相同的邮件而不会产生不利影响。

Answer 1