PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Server stürzt immer nach einigen Tagen ab bzw. hängt sich auf - was tun?



Seiten : [1] 2

alegria
08.11.08, 16:22
Hey!

Ich habe folgendes Problem: Ich stöpsel Monitor, Maus und Tastatur an meinen Server, boote, starte alle Services (apache, mysql, etc.) und damit ist das Ding erreichbar und alles schön. Also mach ich Monitor, Maus und Tastatur wieder ab und bin glücklich. Bis zum xten Tag! Irgendwann nämlich ist der Server nicht mehr erreichbar. Das irgendwann bzw. den Zeitpunkt kann ich auf ca. eine Stunde genau eingrenzen. Aber die Ursache nicht! Das dumme ist auch, stecke ich Monitor & Co. wieder an den Rechner sehe ich nix! GAR NIX! Obwohl der "power on" Knopf vom Server noch schön leuchtet. Es bleibt also nix anderes übrig als alles neu starten (wie oben beschrieben). Doch sowas nervt!

Woran könnte denn sowas liegen?
(an vielen Dingen, deswegen mal etwas konkreter gefragt...)
Wie kann man den Fehler/die Ursache eingrenzen? Gibts da diverse Logdateien die die letzten Hilferufe des Systems protokollieren?
Was kann ich machen um solcherlei Probleme nicht mehr zu haben?

Ne Idee von mir wäre ein Skript zu basteln was ca. 1xpro Woche (oder aller drei Tage oder so...) den Rechner neustartet. Nur dann würde ich das Problem haben das er beim booten hängen bleibt weil er keine Tastatur bzw. Maus findet. Ich hab aber gehört das sowas ggf. im BIOS zu deaktivieren geht!? Ob das Skript prinzipiell auch die richtige Lösung ist weiss ich nicht... Was haltet Ihr davon?

Für Eure Antworten Danke im Voraus...

Sidolin
08.11.08, 16:41
Schau doch mal /var/log durch.

Wene
08.11.08, 16:50
Ne Idee von mir wäre ein Skript zu basteln was ca. 1xpro Woche (oder aller drei Tage oder so...) den Rechner neustartet. Nur dann würde ich das Problem haben das er beim booten hängen bleibt weil er keine Tastatur bzw. Maus findet. Ich hab aber gehört das sowas ggf. im BIOS zu deaktivieren geht!? Ob das Skript prinzipiell auch die richtige Lösung ist weiss ich nicht... Was haltet Ihr davon?

Grundsätzlich ist sowas möglich, halte es aber für keine gute Idee. Solange Du nicht weisst was das Problem ist solltest Du versuchen dieses einzugrenzen. Wenn Du dann herausgefunden hast woran es liegt und der Neustart die beste Lösung ist, von mir aus. :D

alegria
08.11.08, 17:02
Schau doch mal /var/log durch.


Also weder messages noch warn gibt was her...Was anderes fällt mir nicht ein wo ich gucken könnte... Oder hab ich was vergessen?

Könnte es sein das der Speicher irgendwann voll läuft?
Wie könnte ich denn das Problem weiter eingrenzen? Ich mein ich lass das jetzt wieder laufen und am xten geht wieder nix. Dann start ich neu und der ganze spass geht von vorne los... Das kanns ja nicht sein! Irgendwo/-wie muss man doch da ne Lösung finden!?

Aqualung
08.11.08, 17:07
Kommst Du denn noch per ssh auf die Kiste?

Wene
08.11.08, 17:07
Es gibt die Dateien nicht oder was meinst Du damit? Was ist das für eine Distribution und welche Version?

Und wegen dem Speicher: Hast Du genug Platz auf den Festplatte(n)? -> df -h

RAM sollte nicht das Problem sein, es sei denn Du hast keine Swap Partition.

Aqualung
08.11.08, 17:16
Schon mal memtest laufen gelassen?

alegria
08.11.08, 18:07
Kommst Du denn noch per ssh auf die Kiste?
Leider nein... Gar nix will mehr... (host unreachable)

Speicher ist nicht das Problem...

Dateisystem Größe Benut Verf Ben% Eingehängt auf
/dev/sda2 58G 11G 45G 19% /
udev 248M 92K 248M 1% /dev
/dev/sda3 14G 283M 14G 3% /home
SWAP sollte ich haben...

Die anderen Facts: OpenSuse 10.3, 512 RAM, 1,86 GHz Intel Celeron... RAM bin ich mir nicht 100


Schon mal memtest laufen gelassen?
Memtest muss ich über ne Live-CD laufen lassen, richtig? Nein hab ich noch nicht... Aber der checkt doch nur ob der Speicher i.o. ist - und das ist er ja sonst würde ja der neuboot nicht mehr funktionieren, oder?

Aqualung
08.11.08, 18:28
Memtest muss ich über ne Live-CD laufen lassen, richtig? Nein hab ich noch nicht...
Ja.



Aber der checkt doch nur ob der Speicher i.o. ist - und das ist er ja sonst
würde ja der neuboot nicht mehr funktionieren, oder?

Das kannst Du nicht so ohne weiteres sagen. Es reicht, wenn ein Riegel ein bisschen "angefault" ist, aber nur in einem Segment, dass zufällig selten beschrieben wird.

Kannst ja mal eine Überwachung wie



while true; do date >> /var/log/memlog; cat /proc/meminfo >> /var/log/memlog; sleep 60 ; done


mitlaufen lassen. Für nohup in ein Skript unter /root/bin/memtest packen.

Thermische Probleme / Lüfter schon überprüft?

Wene
08.11.08, 18:36
SWAP sollte ich haben...

Die anderen Facts: OpenSuse 10.3, 512 RAM, 1,86 GHz Intel Celeron... RAM bin ich mir nicht 100

Dies kannst Du mit "free -m" prüfen.

alegria
08.11.08, 20:39
Dies kannst Du mit "free -m" prüfen.

Es sieht gut aus...


total used free shared buffers cached
Mem: 495 421 73 0 10 198
-/+ buffers/cache: 211 283
Swap: 2055 0 2054




Kannst ja mal eine Überwachung wie...
Sieht gut aus... Werd ich mal machen, aber:

Für nohup in ein Skript unter /root/bin/memtest packen

Also mit "für nohup" meinst Du den eigentümer auf nohup setzen? (wenn ja, welche gruppe?)
warum gehört das skript nach root/bin und nicht nach /etc/cron.* ???


Thermische Probleme / Lüfter schon überprüft?
War auch eine meiner Vermutungen... Aber das Ding ist super leise und nur "handwarm" (feiner Mini-PC!) Der letzte Log von messages hatte auch keine wahnsinnige Temperaturen... Allerdings fand ich folgendes interessant:
Aufm Server wird relativ häufig ein Eintrag wie etwa

smartd[4484]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 47 to 48
Auf meinem Laptop (auch OpenSuse 10.3) hab ich keinen einzigen Eintrag zu Temperature!? Wieso denn das eigentlcih?
(auch wenn das sicher zur Lösung des Problems nicht unbedingt beiträgt...)

Aqualung
08.11.08, 21:13
Also mit "für nohup" meinst Du den eigentümer auf nohup setzen? (wenn ja, welche gruppe?)
warum gehört das skript nach root/bin und nicht nach /etc/cron.* ???


Das hast Du falsch verstanden. Das Ding soll auch noch laufen, wenn Du Dich ausloggst. Also so:


nohup /root/bin/memtest &

Dann lebt das nach einem "exit" weiter und Du brauchst keinen cron-Eintrag.
Die Meldung aus dem messages ist mir gut bekannt und macht mir nie Probleme.
Kannst evtl. mit Kernelparameter


acpi=off

einen möglichen Übeltäter ausschließen.

alegria
22.11.08, 20:37
Also nach nunmehr 2 Wochen sieht "die Bilanz" mal wieder düster aus... 3 Abstürze und der längste durchgehende Betrieb war bei 4 Tagen und ein paar Stunden...

Alle drei Abstürze hatte ich diesmal irgendwie mit verursacht. Es war also nicht so, dass der Rechner plötzlihc nicht mehr erreichbar war, sondern das ich während diverser Aktionen auf dem Rechner den Absturz bzw. das Aufhängen verursacht habe.
Einmal während ich mehrere Files kopierte (Konqueror und fish://) und zweimal während ich in ner Webanwendung (Ampache) am browsen war...

Man kann sich sicher vorstellen wie mich das nervt bzw. wie stark ich auf Eure Hilfe angewiesen bin da ich selber nicht mehr weiter weiss...

Für die KDEfreunde unter Euch noch folgende interessante Beobachtung (Bug?): Starte ich den Rechner ohne angeschlossenen Monitor (aber dafür mit Tastatur und Maus) - egal ob per Knopfdruck oder ssh Fernzugriff bzw. Befehl - habe ich keinen Sound unter KDE. Amarok sagt bspw. "xine konnte keine Audiotreiber installieren". Dadurch läuft leider auch mein mpd daemon nicht korrekt... Starte ich aber die config von alsa sound (alsaconf) auf der kommandozeile höre ich feinsten (demo)sound. Stöpsel ich den Monitor und boote neu höre ich den KDE Begrüßungssoudn, Amarok läuft vom feinsten, alles wie gewohnt okay...
Aber warum nur hat das was mit dem Monitor zu tun???

ThE_FiSh
22.11.08, 23:11
teste die hardware erstmal durch - sonst sucht man ewig nach software fehlern die es garnicht gibt .... ich kenn das ;)

also lad dir mal die ultimate boot cd runter (google weiß wo)
und benutz mal die tools wie hdat2 etc.
falls da nix auffällig wird gehts dann wieder an die software - aber unerklärliche wenig reproduzierbare abstürze weisen (meiner erfahrung nach) meist auf nen hardware schaden/fehler hin

Newbie314
22.11.08, 23:20
Falls die Hardware Suche nichts ergibt:

Bei Opensuse würde ich dem Verdacht dass vielleicht der /tmp Ordner mit Logdateien volläuft (und / zumüllt) Beachtung schenken... hänge doch mal ein "du" in einen Cronjob und lasse die Ergebnisse ca alle 3 Stunden an eine Textdatei anhängen .... bzw. schau ab und zu nach ob diese Partition "volläuft".

Je nach Einstellung würde /tmp beim Booten automatisch gelöscht und damit die Spuren verwischen. Das Log-Level kannst du übrigens irgendwo im Yast detaillierter einstellen (gg mit ein Grund warum bei mir / vollläuft ....) evtl. mal detaillierter einstellen damit du Hinweise erhältst.

Ein Boot Log sollte noch existieren.. vielleicht steht da was drin ?

alegria
23.11.08, 12:10
@ThE_FiSh
Hast ja prinzipiell recht aber da das Teil ziemlich neu ist es ja eher unwahrscheinlich - wenngleich nciht ausgeschlossen - das die Hardware nen Schaden hat... Ausserdem ist mir das Verhalten zu komisch als das es ein "einfacher" Hardwareschaden wär... Hilft mir der Tipp von Newbie314 nicht weiter werd ich aber Deinem Rat folgen udn den REchner mit stundenlangen Tests ins Schwitzen bringen... ;)


@Newbie314

der /tmp Ordner mit Logdateien volläuft
Klingt nicht abwegig und würde erklären warum "plötzlich" mitten bei der Arbeit (kopieren, surfen etc.) der Rechner einfriert...

Das mit dem Abstellen scheint jedoch etwas kniffliger zu sein!?

Je nach Einstellung würde /tmp beim Booten automatisch gelöscht und damit die Spuren verwischen. Das Log-Level kannst du übrigens irgendwo im Yast detaillierter einstellen
Also dazu hab ich zwei Varianten gefunden:
Das hier (http://www.linux-forum.de/tmp-leeren-13862.html) klingt interessant, jedoch sagen mir die einzelnen level ncihts. Ausserdem will ich ja eigentlich kaum booten, so dass hier ja dann trotzdem sukzessiv der ordner vollläuft?
Sinnvoller erscheint mir der Hinweis mit sysconfig (http://linux.derkeiler.com/Mailing-Lists/SuSE/2006-11/msg03446.html). Der steht nämlcih bei mir momentan auf 0 udn ist damit disabled...
Nur kenn ich mich damit nicht aus und bin mir halt etwas unsicher was ich da so mache... Ich würde einfach mal das cron_max_daily oder so ähnlcihe auf 1 setzten und damit täglich ne leerung durchführen... Mal sehen was das bringt... Ist das okay? Was meint der Susekenner?


hänge doch mal ein "du" in einen Cronjob und lasse die Ergebnisse ca alle 3 Stunden an eine Textdatei anhängen
Ein du -s wird jetzt stündlich mitgeloggt...

$emperf!
23.11.08, 17:17
Ich würde mal den RAM austauschen. Hast du nicht jemanden der dir so einen Riegel borgen könnte. Du weisst ja ziemlich genau wie lange du den drin lassen müstest.

Wenn er dann immer noch abschmiert tippe ich auf ein Treiber problem. Gerade wenn das Kistchen sehr neu ist.


Was ist eigentlich für ein RAM verbaut? Markenteil oder No-name?


Ich konnte schon etliche Problem solcher Art mit einem RAM austausch beheben. Bei dir tippe ich aber zu 56% auf ein Treiberproblem!


Bin gespannt was dein du -s preis gibt!
$emp!

BedriddenTech
23.11.08, 22:23
Zu 56%? Wow, das nenn ich mal eine präzise Angabe! :D

Ich bin dafür, daß der TE mal ne Nacht durch den memtest laufen läßt. Wenn selbst da Fehler auftreten, weiß man doch ziemlich genau, worans liegt.

$emperf!
23.11.08, 23:00
wollte damit sagen, dass mein gefühl dass es ein treiberproblem ist ganz leicht mehr wiegt als das gefühl des RAM problems :p

ich habe schon memtest gemacht die alles als OK anzeigten. nachdem ich trotzdem den RAM getauscht habe war das problem behoben. da ich haufenweise RAM hier rumliegen habe geht es für mich schneller wenn ich kurz nen wechsel mache.

kannst du einen guten memtes empfehlen, meiner wahr warscheinlich einfach schei**e.

$emp!

GreenShadow
23.11.08, 23:06
Es kann nur einen geben!

http://www.memtest86.com/


...was auch sonst ;)

Wene
24.11.08, 12:23
Teste wie bereits öfters erwähnt erst mal den RAM Speicher. Alles andere ist sinnlos wenn im Speicher einzelne Bytes defekt sind.

Ausserdem:

Für die KDEfreunde unter Euch noch folgende interessante Beobachtung (Bug?): Starte ich den Rechner ohne angeschlossenen Monitor (aber dafür mit Tastatur und Maus) - egal ob per Knopfdruck oder ssh Fernzugriff bzw. Befehl - habe ich keinen Sound unter KDE. Amarok sagt bspw. "xine konnte keine Audiotreiber installieren". Dadurch läuft leider auch mein mpd daemon nicht korrekt... Starte ich aber die config von alsa sound (alsaconf) auf der kommandozeile höre ich feinsten (demo)sound. Stöpsel ich den Monitor und boote neu höre ich den KDE Begrüßungssoudn, Amarok läuft vom feinsten, alles wie gewohnt okay...
Aber warum nur hat das was mit dem Monitor zu tun???

Was das mit dem Monitor zu tun hat kann ich nicht sagen.
Aber was KDE bzw. Sound (Amarok) auf einem Server zu suchen haben würde mich schon interessieren. :cool:

baumgartner
24.11.08, 12:39
Übersetz nen Kernel, wenn der gcc abschmiert dann weißt du dass es ein Hardware Problem ist. Das übersetzen belastet die Maschiene auch viel stärker als Memtest.

Hatte damals einen Rechner der lief durchaus stabil nur nach etwa 15min spielen stürzte er ab. Beim Kernel compilieren war dann immer nach ein paar min Schluss obwohl ich vorher schon tagelang Memtest laufen lassen habe.
Am Ende hab ich eines der beiden Ram-Module entfernt und die Kiste lief endlich stabil....

GreenShadow
24.11.08, 17:01
Hm, memtest stellt primär ja auch keinen Belastungstest ala cpuburn oder so dar.

alegria
25.11.08, 20:53
Also ich geb Euch allen Recht - bevor memtest den RAM als mögliche Fehlerquelle nicht ausschliesst bringt es wohl nix weiter rumzurätseln...

Brauch ich eigentlich zwingend die LiveCD von memtest86.com oder tut es nicht auch eine der derzeit aktuellen Distributionen. Da gibt es m.E. fast immer den Punkt "Hardware testen" oder so ähnlich der meines Wissens nichts anderes als memtest macht... Lieg ich falsch oder richtig?

@$emperf!

Bin gespannt was dein du -s preis gibt!
Nach etwas mehr als zwei Tagen bescheidene 1,x MegaByte...

An welchen Treiber denkst Du? Und warum eigentlich Treiber?

@Wene

Was das mit dem Monitor zu tun hat kann ich nicht sagen.

Schade! :(

Aber was KDE bzw. Sound (Amarok) auf einem Server zu suchen haben würde mich schon interessieren.
Relativ einfach... KDE weil ich das gewohnt bin, den Platz bzw. die starke Kiste ja eh habe (eigentlich schon irgendwo Verschwendung... aber das Teil war ja ein Gewinn und ich fand die Serveridee interessant...) und nicht so konsolensicher bin.
Sound weil ich im Ampache den MPD Dameon laufen habe und somit per Webinterface (wahlweise von einem meiner Laptops bzw. sonstigen mobilen Geräten) die Lautstärke verändern kann (Server hängt auch an Anlage).
Und Amarok war halt bei Standard KDE mit dabei...

Noch Fragen? :)

@baumgartner
Um Himmels Willen! Bei aller Freude am Probieren - den Kernel fass ich nicht an! Keine Ahnung was da wie funktioniert und um ehrlich zu sein will ich es auch nicht wissen. Da gibts Kernelfreaks für...

Warten wir also memtest ab...

GreenShadow
25.11.08, 21:24
Brauch ich eigentlich zwingend die LiveCD von memtest86.com oder tut es nicht auch eine der derzeit aktuellen Distributionen. Da gibt es m.E. fast immer den Punkt "Hardware testen" oder so ähnlich der meines Wissens nichts anderes als memtest macht... Lieg ich falsch oder richtig?

Finde eine LiveCD immer am einfachsten aber klar, ich glaube dass das bei vielen schon enthalten ist. Kann man teils sogar noch bei der Kernelauswahl im Bootvorgang auswählen.

Newbie314
26.11.08, 00:10
.. wenn in 3 Tagen gerade mal ein MB auftrat liegt es nicht daran dass / überläuft... evtl. in Yast mal das Logging-Detail-Niveau hochdrehen dann siehst du vielleicht etwas in den letzten Einträgen bevor der Rechner abschmiert ...

Temperatur ? Rechner innen sauber ? Stromversorgung OK ? Lüfter gehen ? Das wäre evtl. noch ein Grund...

baumgartner
26.11.08, 09:45
@baumgartner
Um Himmels Willen! Bei aller Freude am Probieren - den Kernel fass ich nicht an! Keine Ahnung was da wie funktioniert und um ehrlich zu sein will ich es auch nicht wissen. Da gibts Kernelfreaks für...

Warten wir also memtest ab...

Du sollst den aktuellen ja nicht verändern, sondern nur mal einen übersetzen.

Blade
26.11.08, 21:50
Hast Du SCSI-Platten mit root-Partition/Swap verbaut? Hast Du einen SCSI-Controler eingebaut? Welches Betriebssytem setzt Du ein?

alegria
29.11.08, 23:09
Also ich hab memtest ne Nacht laufen lassen und heut morgen nach über 14Stunden mit 0 Errors die Sache abgebrochen...

Den Rechner hab ich nun mal im "Failsafe" Modus hochgefahren, also acpi=off, kein X-Window System und sonstigen Ballast... Also recht minimalistisch... Mal sehen ob das nen Unterschied macht...

@Blade: SCSI nein... Und OS ist OpenSuse10.3
@Newbie314: Temperatur liegt konstant irgendwo zwischen 65 und 70 Grad. Nicht unbedingt niedrig, aber auch nciht kritisch wie ich meine... Ansonsten ist das Teil (MiniPC von FujitsuSiemens) neu und entsprechend nichts mit dreckig oder so... Lüfter ist flüsterleise... Das Gerät auch nach einigen Tagen gerade mal "Handwarm"...

Aqualung
30.11.08, 09:26
Lass den Server mal in runlevel 3 laufen (/etc/inittab).
Zugang dann nur noch per ssh.

65-70° ist im erlaubten Bereich für die Kiste? Mal das Handbuch befragt?