PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Server stürzt regelmäßig um 6 Uhr ab, Ursachen-Suche



AndreasMeier
17.08.09, 13:46
Hallo zusammen,

mein Server stürzt neuerdings täglich zwischen 6 und 8 Uhr morgens ab und ich muss mich auf die Suche nach der Ursache machen.

System läuft unter Debian Lenny, hab kürzlich erst das Update von Etch auf Lenny gemacht.
Die letzten Änderungen, die ich vorgenommen hatte, waren:
- DenyHosts installiert
- ClamAV aus den Squeeze-Quellen eingespielt, um neuere Version zu erhalten

Unter Absturz ist hierbei das komplette Einfrieren des Systems gemeint, nicht mal die Konsole direkt am Server ist ansprechbar.

Leider geben die Log-Files nicht viel her.
Die letzten Einträge sind ca. 5:49 bzw. 6 Uhr.
Die 8 Uhr hab ich oben deshalb genannt, weil ich dort dann bemerke, dass der Server sich verabschiedet hat - d.h. ich hab in den Logcheck-Einträgen ein zeitliches Loch zwischen 6 und 8 Uhr.

Die letzten Einträge in der /var/log/messages sind (bezeichnenderweise von Freshclam):


Aug 13 04:49:32 server -- MARK --
Aug 13 05:01:47 server freshclam[6812]: Received signal: wake up
Aug 13 05:01:47 server freshclam[6812]: ClamAV update process started at Thu Aug 13 05:01:47 2009
Aug 13 05:02:03 server clamd[7316]: SelfCheck: Database status OK.
Aug 13 05:02:27 server freshclam[6812]: Can't query current.cvd.clamav.net
Aug 13 05:02:27 server freshclam[6812]: Invalid DNS reply. Falling back to HTTP mode.
Aug 13 05:02:27 server freshclam[6812]: Reading CVD header (main.cvd):
Aug 13 05:02:28 server freshclam[6812]: Trying host db.local.clamav.net (195.30.97.3)...
Aug 13 05:02:28 server freshclam[6812]: OK (IMS)
Aug 13 05:02:28 server freshclam[6812]: main.cld is up to date (version: 51, sigs: 545035, f-level: 42, builder: sven)
Aug 13 05:02:28 server freshclam[6812]: Reading CVD header (daily.cvd):
Aug 13 05:02:28 server freshclam[6812]: OK
Aug 13 05:02:28 server freshclam[6812]: Downloading daily-9686.cdiff [100%]
Aug 13 05:02:28 server freshclam[6812]: daily.cld updated (version: 9686, sigs: 64252, f-level: 43, builder: guitar)
Aug 13 05:02:28 server freshclam[6812]: Database updated (609287 signatures) from db.local.clamav.net (IP: 195.30.97.3)
Aug 13 05:02:28 server freshclam[6812]: --------------------------------------
Aug 13 05:29:32 server -- MARK --
Aug 13 05:49:32 server -- MARK --
Aug 17 08:13:28 server syslogd 1.5.0#5: restart.


Am 13.08., 8 Uhr, hab ich dann erstmal den Server ausgeschaltet, da ich sowieso weg musste und ihn dadurch nicht gebraucht hatte, daher der Sprung im Datum auf den 17.

Jetzt weiß ich trotzdem nicht, ob die Abstürze vom Freshclam kommen, da das Update ja ohne Probleme scheinbar durchlief.
Ich hab jetzt trotzdem mal die Update-Häufigkeit von 24 Mal/Tag auf 1 Mal/Tag runtergesetzt.

Die DenyHosts-Installation läuft korrekt, aber es finden sich keine weiteren Einträge, ausser durch meinen eigenen Test.

Cronjobs hab ich schon angeschaut, laufen entweder stündlich oder zu anderen Zeiten.

Wo kann ich denn noch weiter suchen, um den Fehler einzugrenzen ?

Danke und Gruß
Andreas

asi_dkn
17.08.09, 14:20
Eventuell kannst du mal sar installieren (sofern das nicht schon der Fall ist) und mal schauen ob du etwas sonderbares bemerkst (Hoher Load, I/O etc.)

AndreasMeier
17.08.09, 14:37
Meinst Du "atsar" (activity-monitor) ?
"sar" selber find ich nicht.

*Update*
Jupp, habs gefunden, ist dasselbe (Unterschied Unix/Linux lt. freshmeat)

John W
17.08.09, 14:56
Was laufen denn um die Zeit für Cronjobs an? Bei regelmäßiger Uhrzeit würd ich da als erstes nachsehen.

AndreasMeier
17.08.09, 15:10
Was laufen denn um die Zeit für Cronjobs an? Bei regelmäßiger Uhrzeit würd ich da als erstes nachsehen.

Ja eben keine erkennbaren Cronjobs (wie oben bereits geschrieben), dass ist ja das blöde.
Hatte ich schon geschaut.

AndreasMeier
17.08.09, 15:17
Ich versteh irgendwie den Aufruf des atsar-Kommandos nicht.

Ich wollte jetzt mal folgendes:


atsar -u -P -D -r -p -I -T -N -s 05:00 -e 09:00


Mit dem Code "-s 05:00 -e 09:00" sollte das Logging zwischen 5 und 9 Uhr stattfinden, ist das so richtig?

Die restlichen Schalter hab ich mir rausgesucht, sollte das meiste abdecken, was interessant sein könnte.

Aber ist das Kommando dann schon richtig und vollständig ?
Ich habs abgeschickt und erhalte gleich das Prompt wieder.
Allerdings weiß ich trotzdem nicht, ob er dann zur angegebenen Zeit mitgeloggt wird, oder nicht?
Woran kann ich das erkennen?

Die Ausgabe nach dem Kommando sieht nämlich komisch aus:


server:/var/log/atsar# atsar -u -P -D -r -p -I -T -N -s 05:00 -e 09:00

Linux server 2.6.26-2-686 #1 SMP Sun Jun 21 04:57:38 UTC 2009 i686 08/17/2009

14:50:01 cpu %usr %nice %sys %irq %softirq %wait %idle _cpu_

14:50:01 pswch/s runq nrproc lavg1 lavg5 avg15 _procload_

14:50:01 partition busy read/s Kbyt/r write/s Kbyt/w avque avserv _part_

14:50:01 memtot memfree buffers cached slabmem swptot swpfree _mem_

14:50:01 pagein/s pageout/s swapin/s swapout/s fork/s _page_

14:50:01 cpu iq00 iq01 iq03 iq04 iq06 iq08 iq12 iq14 iq15 iq19 iq20 _intr/s_

14:50:01 inerr/s retrans/s attfail/s estabreset/s outreset/s _tcp_

14:50:01 svrpc/s clrpc/s sudp/s stcp/s stcon/s cudp/s ctcp/s ctcon/s _nfs_

Was mich zusätzlich wundert: Es ist jetzt 15:15 Uhr und der Output zeigt 14:50 Uhr, obwohl Uhrzeit am Server übereinstimmt.

asi_dkn
17.08.09, 16:34
So auswendig weiss ich's nicht mit dem Befehl, aber atsar sammelt zu erst mal regelmässig daten die du dann abrufen kannst. Du wirst vermutlich zwischen 5 und 9 Uhr noch gar keine Daten haben.

Du kannst das also frühestens morgen nachschauen.

Newbie314
17.08.09, 17:54
Nur so ein Gedanke: kann es sein dass aus irgendwelchen Gründen (Aufzug / Maschine läuft an/ Boiler springt an...) die Versorgungsspannung des Servers irgendwelche Bocksprünge macht.. und er das nicht verträgt ?

Oder dass er überhitzt weil eine Klimaanlage ausgeht ?

AndreasMeier
19.08.09, 12:10
Nur so ein Gedanke: kann es sein dass aus irgendwelchen Gründen (Aufzug / Maschine läuft an/ Boiler springt an...) die Versorgungsspannung des Servers irgendwelche Bocksprünge macht.. und er das nicht verträgt ?

Oder dass er überhitzt weil eine Klimaanlage ausgeht ?

Nee, kann nicht sein. Hab hier ne recht stabile Spannungsversorgung und sonst müsste ich ja auch was an den Clients merken.

Klima-Anlage brauch ich nicht, da der Server im kühlen Keller steht :-)


Seit 2 Tagen hab ich jetzt den Server wieder am durchlaufen.
Ich hatte den Update-Zyklus von Freshclam auf einmal pro Tag abgeändert - einmal pro Stunde erschien mir sowieso nicht nötig.
Allerdings weiß ich trotzdem nicht, obs wirklich daran lag. Mal sehen.

Muss als nächstes mal schauen, ob mir atsar wirklich Daten geschrieben hat.