XXLRay
03.08.09, 14:15
Ich betreue einen Mailsserver mit Amavis und Spamassassin als Plugin inklusive bayesischem Filter für etwa 80 User. Jede Nacht läuft ein Cronjob, der alle IMAP-Ordner nach den Ordnernamen "nospam" (für Ham/false positives) und "undetected" (für Spam/false negatives) durchsucht und daraus per sa-learn lernt.
Da allein ich pro Tag etwa 3000 Spam-Mails bekomme, kann ich die nicht dauerhaft speichern. Deswegen werden (bei mir) Mails in den Ordnern "nospam" und "undetected" nach zwei Tagen, wenn sie mit Sicherheit gelernt wurden, gelöscht.
Jetzt ist mir aufgefallen, dass in ca 90% der Fälle der bayesische Filter die Mails mit 50% Spamwahrscheinlichkeit bewertet, er also keine Ahnung hat. Dabei sind etwa 90% aller Mails Spam. Zum Glück sind die anderen Filter-Plugins, die über Spamassassin laufen so gut, dass das selten ins Gewicht fällt. Deswegen ist das auch erst jetzt aufgefallen, nachdem das System schon mehrere Monate so läuft.
Kann das Problem sein, dass beim Lernen gelöschte Mails als falsch gelernt angenommen werden und sich der Filter deswegen nicht entscheiden kann? Ich konnte dazu bisher leider keine Informationen finden.
Da allein ich pro Tag etwa 3000 Spam-Mails bekomme, kann ich die nicht dauerhaft speichern. Deswegen werden (bei mir) Mails in den Ordnern "nospam" und "undetected" nach zwei Tagen, wenn sie mit Sicherheit gelernt wurden, gelöscht.
Jetzt ist mir aufgefallen, dass in ca 90% der Fälle der bayesische Filter die Mails mit 50% Spamwahrscheinlichkeit bewertet, er also keine Ahnung hat. Dabei sind etwa 90% aller Mails Spam. Zum Glück sind die anderen Filter-Plugins, die über Spamassassin laufen so gut, dass das selten ins Gewicht fällt. Deswegen ist das auch erst jetzt aufgefallen, nachdem das System schon mehrere Monate so läuft.
Kann das Problem sein, dass beim Lernen gelöschte Mails als falsch gelernt angenommen werden und sich der Filter deswegen nicht entscheiden kann? Ich konnte dazu bisher leider keine Informationen finden.