SpamAssassin: Score im Head falsch, negative Scores [Archiv]

autotest100

20.10.06, 17:25

Hallo,

ich habe einen neuen Server mit qmail+qsheff2 und SA eingerichtet. SA-Learn habe ich auch gefüttert, dh. jeweils mit über 200 Spams und Hams.
Ca. 40% der Spams werden auch erkannt und Korrekt im Header und auch im Body bewertet zB.
Header-Mail1 (korrekt als SPAM identifiziert):

X-Mail-Scanner: Scanned by qSheff-II-2.1-r2 (http://www.enderunix.org/qsheff/)
Received: from localhost by servername.org
with SpamAssassin (version 3.1.3);
Wed, 18 Oct 2006 21:26:12 +0200
From: "Ellis Berger" <rachelgrkz@hotmail.com>
To: <user@servername.org>
Subject: I know how to find a lot of girls
Date: Wed, 18 Oct 2006 14:24:46 -0700
Message-Id: <11395523888482.74313D1DDF@TRIM5ZU>
X-Spam-Score: 15.5
X-Spam-Flag: YES
X-Spam-Checker-Version: SpamAssassin 3.1.3 (2006-06-01) on
servername.org
X-Spam-Level: ***************
X-Spam-Status: Yes, score=15.5 required=5.0 tests=BAYES_99,DRUGS_ERECTILE,
DRUGS_ERECTILE_OBFU,FORGED_HOTMAIL_RCVD2,FUZZY_CPI LL,
UNPARSEABLE_RELAY autolearn=no version=3.1.3

Body-Mail1 (korrekt als SPAM identifiziert):

Content analysis details: (15.5 points, 5.0 required)

pts rule name description
---- ---------------------- --------------------------------------------------
2.1 FORGED_HOTMAIL_RCVD2 hotmail.com 'From' address, but no 'Received:'
0.0 UNPARSEABLE_RELAY Informational: message has unparseable relay lines
1.7 FUZZY_CPILL BODY: Attempt to obfuscate words in spam
7.5 BAYES_99 BODY: Bayesian spam probability is 99 to 100%
[score: 1.0000]
1.8 DRUGS_ERECTILE_OBFU Obfuscated reference to an erectile drug
2.4 DRUGS_ERECTILE Refers to an erectile drug

In ca. 30% der Fällen wird im Body korrekt bewertet und die Mail als Spam deklariert, aber nicht im Header! Dh. im Header steht eine falsche Score-Zahl, oft auch eine negative Zahl!
Header-Mail2 (nur im BODY als SPAM identifiziert, nicht im Header):

X-Mail-Scanner: Scanned by qSheff-II-2.1-r2 (http://www.enderunix.org/qsheff/)
X-Spam-Score: 0.5
X-Spam-Checker-Version: SpamAssassin 3.1.3 (2006-06-01) on
server.org
X-Spam-Level:
X-Spam-Status: No, score=0.5 required=5.0 tests=BAYES_50,HTML_30_40,
HTML_MESSAGE,UNPARSEABLE_RELAY autolearn=no version=3.1.3
Delivered-To: 34-user@server.net
Received: (qmail 20825 invoked from network); 18 Oct 2006 20:53:04 +0200
X-Mail-Scanner: Scanned by qSheff-II-2.1-r2 (http://www.enderunix.org/qsheff/)
Received: from localhost by server.org
with SpamAssassin (version 3.1.3);
Wed, 18 Oct 2006 20:53:04 +0200

Body-Mail2 (nur im BODY als SPAM identifiziert, nicht im Header):

Content analysis details: (6.2 points, 5.0 required)

pts rule name description
---- ---------------------- --------------------------------------------------
3.8 HELO_DYNAMIC_DHCP Relay HELO'd using suspicious hostname (DHCP)
3.9 HELO_DYNAMIC_IPADDR Relay HELO'd using suspicious hostname (IP addr
1)
-2.3 BAYES_00 BODY: Bayesian spam probability is 0 to 1%
[score: 0.0000]
0.5 HTML_30_40 BODY: Message is 30% to 40% HTML
0.0 HTML_MESSAGE BODY: HTML included in message
0.4 MIME_HTML_ONLY BODY: Message only has text/html MIME parts

Und ca. 30% aller Spams werden gar nicht als Spam erkannt, weder im Body, noch im Header.
Header-Mail3 (wurde nicht als Spam identifiziert, negative Score-Zahl):

X-Mail-Scanner: Scanned by qSheff-II-2.1-r2 (http://www.enderunix.org/qsheff/)
X-Spam-Score: -2.3
X-Spam-Checker-Version: SpamAssassin 3.1.3 (2006-06-01) on
server.org
X-Spam-Level:
X-Spam-Status: No, score=-2.3 required=5.0 tests=BAYES_00
autolearn=unavailable version=3.1.3
Delivered-To: 34-user@server.net
Received: (qmail 21995 invoked from network); 18 Oct 2006 21:31:02 +0200
X-Mail-Scanner: Scanned by qSheff-II-2.1-r2 (http://www.enderunix.org/qsheff/)
X-Spam: Not detected

Hier ist meine /etc/mail/spamassassin/local.cf:

required_score 5.0
add_header all Score _SCORE_
report_hostname mail.server.org
report_safe 1
# Enable the Bayes system
bayes_path /var/spool/spamassassin/bayes
bayes_file_mode 777
use_bayes 1
#auto_learn 1
# Enable Bayes auto-learning
bayes_auto_learn 1
bayes_auto_learn_threshold_spam 7.5
score BAYES_99 7.5
# Enable or disable network checks
skip_rbl_checks 0
use_razor2 0
use_dcc 1
use_pyzor 1

spamd wird mit diesen Optionen gestartet:

-d -c -L -x --socketpath=/tmp/spamd.sock

Mein /var/qmail/bin/qmail-queue:

#!/bin/sh
/usr/bin/spamc -x -U /tmp/spamd.sock |/var/qmail/bin/qmail-qsheff

sa-learn --dump magic :

0.000 0 3 0 non-token data: bayes db version
0.000 0 252 0 non-token data: nspam
0.000 0 930 0 non-token data: nham
0.000 0 152102 0 non-token data: ntokens
0.000 0 1142352959 0 non-token data: oldest atime
0.000 0 1161206710 0 non-token data: newest atime
0.000 0 1161206756 0 non-token data: last journal sync atime
0.000 0 1161188908 0 non-token data: last expiry atime
0.000 0 18956342 0 non-token data: last expire atime delta
0.000 0 1256 0 non-token data: last expire reduction count

Die Logdateien habe ich auch schon angeschaut, aber ich finde einfach keine Fehler.
Meine Frage an Euch:
Was mache ich falsch? Wer kann mir Tipps geben, damit SA endlich auch bei mir richtig filtert?

Vielen Dank im Voraus

Stefan

LKH

20.10.06, 17:31

Hi,

Spamassassin musst du trainieren. Hast du das schon gemacht? Nach ca. 1000 Mails läuft er dann ganz gut. Ein negativer Score verringert nur die Gesamtbewertung, also an sich auch kein Problem.

Dono

20.10.06, 18:28

ich habe machmal das Problem, daß Mails gar keinen SPAM TAG bekommen.
(ich nutze spamassassin mit kmail)
spamd sollte man glaube ich nicht mit -L laufen lassen

autotest100

20.10.06, 20:20

Hi,

Spamassassin musst du trainieren. Hast du das schon gemacht? Nach ca. 1000 Mails läuft er dann ganz gut. Ein negativer Score verringert nur die Gesamtbewertung, also an sich auch kein Problem.

Vielen Dank für Eure schnelle Rückmeldung. Ich habe SA trainiert, aber nur mit ca. 300 Mails. Ich mache weiter, und hoffe, dass die Quote besser wird.

Die Option -L war leider schon standardmässig bei der Installation gesetzt und ich habe deren Bedeutung übersehen. Ich habe die Option nun rausgenommen und beobachte SA weiter.
Vielen Dank erstmal!