PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : openSuSE 10.2 Server-Herzinfarkt-Tod, aber warum?



Blade
04.07.07, 18:53
Vor rund ½ Jahr wurde unser Intra-/Internet-Server hardwaremäßig aufgerüstet und das Softwarepaket openSuSE 10.2 installiert. Es lief soweit alles sauber, bis ich vor ca. 6 Wochen ein YOU-Update machte und einen neuen Kernel installiert bekam. Beim Hochfahren blieb der Server stehen, die Partitionseinträge stimmten nicht, korrigiert und gut war’s.

Nun kommt aber das Problem:
Seit dieser Zeit habe ich bisher rund 5 Herzinfarkt-Tode des Servers erlebt. Das bedeutet, der Server bleibt softwaremäßig einfach stehen und reagiert auf keinen Zugriff mehr. Auch an der Konsole direkt gibt er kein Lebenszeichen mehr von sich. Es bleibt nichts anderes übrig als Strom wegnehmen und wieder booten. Beim 3-ten stehen bleiben war sogar das Software-RAID, gespiegelte Platten, klinisch tot/zerschossen. Backup musste herhalten, RAID neu aufgesetzt.

Nun habe ich ein supergutes Netzteil eingebaut, eine nagelneue APS-USV Smart-UPS 1000 mV, 2 neue Baracuda-Platten reingehängt und heute blieb die Kiste trotzdem wieder stehen.

In den LOG-Dateien findet man absolut keine Einträge hinsichtlich Fehler oder Defekte.

Meine aktuelle neue Hardware ist:
- Motherboard ASUS P5-LD2-FE
- Intel-Prozessor Core2 Duo 2,13 GHz (2 Kerne)
- 2GB RAM Kingston
- SATA-Controller on Board mit 2 x Baracuda 320 GB - Platten

Die obigen Platten laufen nur als reine Daten-/File-Platten. Das Betriebssystem selbst ist auf einer separaten Fujitsu-SCSI mit dem SCSI-Controller Tekram 390U2W. Die SCSI-Schiene wurde vom alten Server übernommen.

Frage: Kennt jemand das Problem unter openSuSE 10.2, ist das eventuell ein Problem des Betriebssystems?

Morgen werde ich mal einen RAM mem-Test die Nacht über laufen lassen. Im moment habe ich keinen weiteren Plan? Bin für jeden Tipp dankbar.

Stefan Bauer
05.07.07, 05:33
Läuft der klogd? Bitte mal die Kernel-Log-Meldungen überwachen.
Mit smartd mal die Platten überwachen, bzw. durchchecken.
Evtl. Badblocks? (verrät das Tool badblocks)
Aktuelle Bios-Version vom Asus-Mainboard?
Läuft ACPI? Wenn nicht benötigt, dem Kernel beim Booten noacpi mitgeben.


Gruß

Blade
06.07.07, 21:31
Hallo Stefan,
vielen Dank für Deine Ansatzpunkte:
- klogd läuft, in welchen log-Dateien schreibt der Dienst die Infos rein?
- smartd -> habe ich mal gestartet ... mal sehen
- Bios-Version entspricht Kaufdatum, muss ich mal nachsehen. Wie mache ich das beim laufenden Serverbetrieb?
- avpid läuft, weiß aber nicht was der Daemon macht und ob ich ihn benötige?

Sodann habe ich die Nacht über 12 Stunden lang den MEM-Test laufen lassen, alles okay!

Könnte der Fehler am SCSI-Controler liegen .... ist fast meine Vermutung.

Bin dankbar für weiter Tipps, kein leichtes Thema ;-)