PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Spamassassin + Erkennungsquote



anubis01
05.01.04, 16:25
Habe Spamassassin 2.61 auf meinem lokalen Mailserver installiert um das Problem der Spammails ein bisschen zu bekaempfen...

Ich muss aber sagen, dass die Erkennungsquote der Spammails sehr schlecht ist. Ich habe mir Testspammails schicken lassen und nur ca. 1/3 wird als Spam erkannt.

An was kann das liegen?

Ich habe gelesen das man mit sa-learn Spamassassin Spammails antrainieren kann. Aber wo bekomme ich ein paar tausend Spammails her?

Gruss,

Anubis

Jasper
05.01.04, 19:03
Original geschrieben von anubis01
Habe Spamassassin 2.61 auf meinem lokalen Mailserver installiert um das Problem der Spammails ein bisschen zu bekaempfen...

Ich muss aber sagen, dass die Erkennungsquote der Spammails sehr schlecht ist. Ich habe mir Testspammails schicken lassen und nur ca. 1/3 wird als Spam erkannt.


spamassassin hat bei mir mittlerweile (mit bayes) 99% erkennungsquote bei 0 falsch negativen.



Ich habe gelesen das man mit sa-learn Spamassassin Spammails antrainieren kann. Aber wo bekomme ich ein paar tausend Spammails her?


naja, selbst ohne den bayes hat spamassassin eine bessere quote als 30%.
alles mit score > 4.0 ist bei mir spam. vielleicht ist dein schwellwert zu hoch?


-j

Jasper
05.01.04, 19:06
Original geschrieben von anubis01
Habe Spamassassin 2.61 auf meinem lokalen Mailserver installiert um das Problem der Spammails ein bisschen zu bekaempfen...

Ich muss aber sagen, dass die Erkennungsquote der Spammails sehr schlecht ist. Ich habe mir Testspammails schicken lassen und nur ca. 1/3 wird als Spam erkannt.


spamassassin hat bei mir mittlerweile (mit bayes) 99% erkennungsquote bei 0 falsch negativen. hab den bayes allerdings auch mit gut 5000 ham und 5000 spam trainiert :)



Ich habe gelesen das man mit sa-learn Spamassassin Spammails antrainieren kann. Aber wo bekomme ich ein paar tausend Spammails her?


naja, selbst ohne den bayes hat spamassassin eine bessere quote als 30%.
alles mit score > 4.0 ist bei mir spam. vielleicht ist dein schwellwert zu hoch?

keine sorge, spammails bekommst du schneller zusammen als dir lieb ist.
lass spamassassin erstmal ohne bayes laufen und wenn du ca. 200 spams/hams hast, schaltest du auto_learn ein. damit wird der filter langsam immer besser. ab und zu nachkontrollieren kann nicht schaden.


-j

zini2001
06.01.04, 04:52
@jasper
welche verzeichnisse und dateien sind denn bei dir für ein back von SA mit bayes relevant?

gruß zini

anubis01
06.01.04, 09:47
@ Jasper: Also meine Erfolgsquote scheint jetzt ein bisschen besser geworden zu sein, denn ich hatte in meiner .procmailrc eine falsche Einstellung. ;)

Sollte man in seiner local.cf erst nach ca. 200 Spammails autolearn auf 1 stellen? Oder ist das egal?

Greets,

Anubis

Jasper
06.01.04, 10:47
Original geschrieben von zini2001
welche verzeichnisse und dateien sind denn bei dir für ein back von SA mit bayes relevant?


aehm, parse error. was meinst du mit 'back'?


-j

Jasper
06.01.04, 10:54
Original geschrieben von anubis01

Sollte man in seiner local.cf erst nach ca. 200 Spammails autolearn auf 1 stellen? Oder ist das egal?


bayes wird erst nach einer gewissen anzahl von gesammelten tokens verwendet. siehe bayes_min_ham_num und bayes_min_spam_num. steht beides AFAIK auf 200. mit zuwenig daten arbeitet der bayes nicht gut (funktionsprinzip basiert auf statistik).

am besten klappts mit anfänglichem manuellem training (hat bei mir 24h gedauert :) mit nachfolgendem autolearn.

hier mal meine bayes-parameter (für meinen gmx-account):

required_hits 4.0
use_bayes 1
bayes_auto_learn 1
bayes_auto_learn_treshold_nonspam 1.0
bayes_auto_learn_treshold_spam 5.0
bayes_expiry_max_db_size 10000000
bayes_ignore_header X-GMX-Antivirus
bayes_ignore_header X-GMX-Antispam


-j

swen1
06.01.04, 11:42
Original geschrieben von Jasper
hab den bayes allerdings auch mit gut 5000 ham und 5000 spam trainiert :)


Woher bekommt man 5000 ham und spam Mails?

Also als Spam erkannte Mails hab ich ja genug, aber wichtiger wäre ja Spam der nicht erkannt wurde SpamAssassin nochmal als Spam zum lernen vorzusetzen. Aber die Mails sind alle zum User raus, und der hat Sie gelöscht.

Also wie macht man das am Besten?


Gruß Swen

Jasper
06.01.04, 13:45
Original geschrieben von swen1
Woher bekommt man 5000 ham und spam Mails?

Also als Spam erkannte Mails hab ich ja genug, aber wichtiger wäre ja Spam der nicht erkannt wurde SpamAssassin nochmal als Spam zum lernen vorzusetzen. Aber die Mails sind alle zum User raus, und der hat Sie gelöscht.

Also wie macht man das am Besten?


nein, es müssen keine falsch negativen sein. bayes basiert auf statistischer verteilung, d.h. spamassassin benötigt nur die spezifische verteilung der di/trigramme für spam/ham. ob spamassassin die falsch erkannt hat oder nicht spielt dafür keine rolle.

also einfach alles was da ist (ich hab bei jeweils 5000 aufgehört, weil das trainieren doch eine weile dauert) an sa-learn verfüttern und sich dann mal die statistik ausgeben lassen. wie gesagt, bayes lernt in tokens (di/tri-gramme). diese anzahl ist entscheidend, nicht die anzahl der mails. wenn du bspw. 1000 mails lernst, die sich kaum in der art und anzahl der tokens unterscheiden, ist der lerneffekt sehr gering.


-j

zini2001
06.01.04, 22:42
*KNIrSCH*
backUP ist das richtige wort!!
ich find es sehr unpracktisch dem SA unendlich mails als ham/spam zu zeigen und dann nach einen plattencrash wieder von vorne anzufangen.

Jasper
07.01.04, 02:25
Original geschrieben von zini2001
*KNIrSCH*
backUP ist das richtige wort!!
ich find es sehr unpracktisch dem SA unendlich mails als ham/spam zu zeigen und dann nach einen plattencrash wieder von vorne anzufangen.

spamassassin speichert die token in db-files (gdbm, dbm, ndbm, was halt da ist) ab. den pfad zu diesen files kann man mit 'bayes_path' angeben. keine ahnung was der default ist, steht aber in der manpage. ausserdem sollte man seine local.cf (bei mir unter /etc/mail/spamassassin) sichern. evtl. vorhandene user_prefs.cf liegen eh im home-verzeichnis rum, die sowieso gesichert werden sollten.

ist nicht viel, was gesichert werden muss, ein verzeichnis mit 3 files und eine config.


-j

ChandlerBing
25.01.04, 13:39
Original geschrieben von Jasper
spamassassin speichert die token in db-files (gdbm, dbm, ndbm, was halt da ist) ab. den pfad zu diesen files kann man mit 'bayes_path' angeben. keine ahnung was der default ist, steht aber in der manpage.
-j

hi,

lt. manpage liegen die files in /usr/share/spamassassin, /etc/mail/spamassassin und ~/.spamassassin.
Allerdings finde ich dort keine dbm dateien.
In der manpage finde ich auch nichts zu bayes_path.

Weiß jemand Rat?

Chandler

LKH
25.01.04, 16:43
Hi,

die man-page rufst du mit "man Mail::SpamAssassin::Conf" auf, da steht dann auch was zum bayes_path. Defaultmäßig ist der auf "~/.spamassassin/bayes" eingestellt.

In "meinem" Bayes-Pfad finden sich folgende Dateien:

auto-whitelist.dir bayes_journal bayes_toks
auto-whitelist.pag bayes_seen user_prefs

Die sichere ich ab und an auf dem Mailserver. Zurückspielen musste ich die bisher noch nicht. Da ich zuerst einen anderen Benutzer mit der Mailabholung beauftragt hatte, habe ich die Dateien aber mal rüberkopiert und dir Rechte angepasst. Keine Probleme damit ....

Auch mit dem auto-learn gabs keine Probleme. Nachdem es enabled war und ich dem System 200 Spammails und 200 Hammails beigebracht hatte wird es auch genutzt. Nun trainiere ich spamassassin ab und an, wenn eben die Trefferquote schlechter zu werden scheint. Aber eben nicht nur mit Spam, sondern auch mit Ham füttern.

Hoffe es hilft,

ChandlerBing
25.01.04, 17:08
Danke Dir,

wenn ich also die Verzeichnisse /usr/share/spamassassin, /etc/mail/spamassassin und ~/.spamassassin sichere, sollte ich alles haben, was ich für eine "verlustfreie" Neuinstallation brauche.
auto-whitelist.dir und auto-whitelist.pag hab ich nicht, hat das was zu sagen?

Chandler

LKH
26.01.04, 09:25
Hi,

wenn du keine Whitelist hast, hast du die Dateien auch nicht. In eine Whitelist kommen die Adressen, die niemals als Spam erkannt werden sollen.

ChandlerBing
26.01.04, 13:55
Hätte ich mir auch denken können. :rolleyes:
Danke Dir.