PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : bayes DB per User oder Server ???



Mathew
02.09.06, 05:23
Hallo zusammen,

habe zwar hier im Forum schon einiges unter bayes gelesen, aber nirgendwo was meine Frage betrifft. In Google bin ich auch nicht weiter gekommen.

SA kann die bayes_* per user oder global anlegen, pflegen und benutzen. Global wäre natürlich viel einfacher bei spamarchive.org.

Nun stellt sich mir die Frage, ob ich global oder lokal nehmen soll :eek:

LOKAL: bessere Performance ???
GLOBAL: effektiver ???

Nehmen die meisten lokal weil es per default so eingerichtet ist oder hat das noch einen anderen Grund ???

Der Server ist ein reiner Mailserver mit ca. 500 Mailuser und hat auch genug Leistung.

Dankäääää

fladi.at
02.09.06, 10:07
Also, ich würde eine Bayes-DB für jeden User extra empfehlen.
Ich habe ein Jahr lang die Bayes-DB von Bogofilter global für den gesamten Mailserver geführt. Das Problem war dann aber, dass bei automatischem Learning die Spammails der einzelnen User so unterschiedlich waren, dass es nach einiger Zeit vermehrt zu False-Positives gekommen ist.
Seit ich die DB für jeden User extra halte sind die Probleme mit False-Positives eigentlcih gänzlich verschwunden.

Mathew
02.09.06, 13:36
na gut, mir ist es perönlich ja egal ob global oder user, aber die user machen nichts mit spam oder ham, dass muss dann alles schon über sa-learn laufen.

Mit der training von spamarchive.org wird dann auch etwas schwierig. Selbst wenn ich ein Script schreibe um die spams zu lernen (ham muss der dann seine 200 selber suchen :D ), dann habe ich die bayes db mit spam von spamarchive.org * 500 auf dem Server.

Letzlich ist für mich wichtig, dass die Funktion ohne Pflege des users erfolgt. Also werde ich dann pro user nehmen ohne spamarchive.org und das ganze baut sich dann langsam von selber auf.

Der globale Ordner wo alle Spams reingehen (zum schauen ob da vielleicht am Anfang doch eine "gute" drin ist), bringt mir dann auch nichts. Ich müsste dann ja pro user ein Spamordner anlegen, diesen dann manuell kontrollieren um das dann in die bayes db des users als spam zu trainieren.

hmmm, also alles nicht ganz so einfach und alle nutzen sa :D

fladi.at
02.09.06, 14:18
Ich habs so gelöst, dass eben jeder User automatisch einen eigenen "Spam"-Ordner in seinem IMAP-Tree bekommt. Da muss man dann halt seine Nutzer dazu erziehen, False Negatives dorthin zu verschieben. Thunderbird kann das recht gut regeln, wenn man den dort zusätzlich vorhandenen selbstlernenden Filter verwendet. Thunderbird kann dann alle vom Benutzer als Spam markierten Mails automatisch in den Spam-Ordner im IMAP verschieben. In der Nacht läuft dann ein Cronjob durch, und trainiert neue Mails im Spamordner des Benutzers in seine Bayes-DB ein. Damit minimiert sich der Wartungsaufwand, und der Nutzer kann indirekt Einfluss auf die Wertungen in der Bayes-DB nehmen.