PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Emails löschen, wenn der bayesische Filter sie gelernt hat?



XXLRay
03.08.09, 14:15
Ich betreue einen Mailsserver mit Amavis und Spamassassin als Plugin inklusive bayesischem Filter für etwa 80 User. Jede Nacht läuft ein Cronjob, der alle IMAP-Ordner nach den Ordnernamen "nospam" (für Ham/false positives) und "undetected" (für Spam/false negatives) durchsucht und daraus per sa-learn lernt.
Da allein ich pro Tag etwa 3000 Spam-Mails bekomme, kann ich die nicht dauerhaft speichern. Deswegen werden (bei mir) Mails in den Ordnern "nospam" und "undetected" nach zwei Tagen, wenn sie mit Sicherheit gelernt wurden, gelöscht.
Jetzt ist mir aufgefallen, dass in ca 90% der Fälle der bayesische Filter die Mails mit 50% Spamwahrscheinlichkeit bewertet, er also keine Ahnung hat. Dabei sind etwa 90% aller Mails Spam. Zum Glück sind die anderen Filter-Plugins, die über Spamassassin laufen so gut, dass das selten ins Gewicht fällt. Deswegen ist das auch erst jetzt aufgefallen, nachdem das System schon mehrere Monate so läuft.
Kann das Problem sein, dass beim Lernen gelöschte Mails als falsch gelernt angenommen werden und sich der Filter deswegen nicht entscheiden kann? Ich konnte dazu bisher leider keine Informationen finden.

datag
03.08.09, 19:50
Ich bin mir nicht ganz sicher, ob ich deine Frage richtig verstanden habe...:

Gelernte Emails wandern in die SA index-file und werden nicht mehr benötigt - man kann die mails also löschen.

XXLRay
04.08.09, 10:12
Ja, meine Frage war, ob einmal gelernte Emails gelöscht werden dürfen. Wenn sa-learn auf ein Vezeichnis angesetzt wird, aus dem Emails entfernt wurden, dann werden die entfernten Emails nicht als "falsch gelernt" behandelt, ja?
Falsch gelernte Nachrichten müssen also mit "sa-learn --forget" aktiv als falsch gelernt gekennzeichnet werden. Ein einfaches entfernen der Emails aus dem Lernordner hat demnach keine Auswirkungen.

Dann muss ich wohl nen anderen Grund suchen, warum mein Bayes so schlecht trifft. Vielleicht lernt den ein Benutzer falsch an. Da muss ich evtl mal ne Aufklärungskampagne starten.