PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : suse 11.1 friert täglich um 18uhr ein!



luckystrikerulz
09.01.09, 17:37
moin,

ich habe vor nicht ganz 2 wochen einen server aufgestellt und erstmal nur suse 11.1 auf minimalkonfiguration installiert.
der server macht nichts weiter als mit samba ein netzlaufwerk für die windowsclienten zu stellen.

es lief einige tage wunderbar, aber seit vorgestern ca 18uhr hängt er sich auf. gestern um ziehlich genau 18 uhr das gleiche und heute bin ich hier vor ort und sehe life, wie er wieder ziehlich genau um 18 uhr in die knie geht:
- netzlaufwerk ist tot
- man kann ihn aber noch pingen
- mann kann auch via ssh verbinden, aber nach eingabe von user und kennwort hängt er
- lokal an der console selber ist nurnoch schwarzer bildschirm
---> einzige möglichkeit ist 5sekunden auf an/aus taster und neu booten

in den logs habe ich nichts gefunden und weiss nichtmehr weiter.
tipps? ;)

Painkiller
09.01.09, 17:57
Scheint ein Cronjob zu sein. :ugly:

pixel
09.01.09, 18:04
aus Erfahrung kann ich sagen das wann immer bei mir ein Linux (ausgenommen X + Desktop) eingefrohren ist es jedesmal an defekter Hardware lag. Das einfachste ist erst mal ein Speichertest und ggf. nicht benötigte Karten ausbauen.

luckystrikerulz
09.01.09, 18:34
habe keine cronjobs
hardware ist nagelneu!!!!

es lief ja auch ca 10tage. das würde also bedeuten, dass in den 10tagen was an der hardware kaputt gegangen ist.....
karten kann ich keine rausnehmen, weil nur eine drin ist und das ist der raidcontroller.

ThE_FiSh
09.01.09, 18:39
neue hardware defekt - kommt vor
testen kostet nix wenn du's selber machst
macht er vllt immer um 18.00 updates die dann vllt fehlschlagen?

luckystrikerulz
09.01.09, 18:43
neue hardware defekt - kommt vor
testen kostet nix wenn du's selber machst
macht er vllt immer um 18.00 updates die dann vllt fehlschlagen?

habe kein auto update aktiviert und in den logs kommt auch nix vor.

neue hardware kann defekt sein, sicher. ABER neue serverhardware für industriellen gebrauch, die nach 10tagen abraucht und dann jeden tag zur gleichen zeit nen fehler verursacht ist mir noch nicht untergekommen ;)

PS: ich werd nachher nochmal hin und memtest86 laufen lassen. mehr weiss ich momentan nicht zutun...

gropiuskalle
09.01.09, 18:49
Ich würde mal so gegen 17:59h 'top' anwerfen und schauen, was da gestartet wird.

Edit: Ganz sicher kein updater-applet aktiviert? Der ist default und wird (zumindest unter der 11.0) nur durch eine komplette Deinstallation deaktiviert.

Wene
09.01.09, 18:52
Lass doch zur fraglichen Zeit mal "top" mitlaufen und sieh Dir an was diese Auslastung verursacht.

Ebenfalls würde ich den Server mal probehalber um jene Zeit vom Netz nehmen. Nur um äussere Einflüsse auszuschliessen.

Edit: Shit, gropiuskalle war schneller.

luckystrikerulz
09.01.09, 18:54
Ich würde mal so gegen 17:59h 'top' anwerfen und schauen, was da gestartet wird.
jo, dacht ich mir auch.
hab da aber keine zeit.
gibs da ne einfache lösung das loggen zu lassen?



Edit: Ganz sicher kein updater-applet aktiviert? Der ist default und wird (zumindest unter der 11.0) nur durch eine komplette Deinstallation deaktiviert.
wo kann ich da mal nachschauen?

marce
09.01.09, 18:56
Meine Erfahrung sagt: Neue Hardware, auch im Serverbreich, stirbt entweder innerhalb von 14 Tagen (daher machen seriöse Hersteller auch einen Burn-in-Test) oder hält ein Leben lang...

marce
09.01.09, 18:58
jo, dacht ich mir auch.
hab da aber keine zeit.
gibs da ne einfache lösung das loggen zu lassen?
cronjob like

* * * * * top -n1 >> /top.log

JAF
09.01.09, 19:30
oder einfach die uhrzeit am pc aendern auf 17:59 ;)

pixel
09.01.09, 19:38
Mein Server besteht ausschließlich aus Serverhardware, alles ca. 6 Monate alt. Letzte Woche fing das ganze System an zu spinnen bzw. einzufrieren.
Das blöde war nur das zeitliche zusammentreffen mit dem Systemumzug auf ein größeres RAID, da hat man gleich dies im verdacht. Nachdem ich dann zwei Tage mit suchen vergeudet hatte habe ich mich dann doch entschlossen die Hardware zu untersuchen mit dem Ergebnis das ein Speicherriegel und die CPU einen Knacks hatte.

Wenn du keinen Spannungsfilter hast kann dieser Defekt auch durch die Dose kommen und dann ist es egal ob es Serverhardware ist oder ein Aldi-PC. Ich habe dann die beiden defekten Teile ausgetauscht und ohne Hand an nur ein Conf zu legen lief das System wieder tadellos.

luckystrikerulz
09.01.09, 20:24
hab die uhr mal zurückgedreht.
ist von 17:55 bis 18:10 gelaufen ohne das was passiert ist.

momentan läuft memtest, hoffentlich gibs da endlich mal nen fehler :rolleyes:


Wenn du keinen Spannungsfilter hast kann dieser Defekt auch durch die Dose kommen und dann ist es egal ob es Serverhardware ist oder ein Aldi-PC. Ich habe dann die beiden defekten Teile ausgetauscht und ohne Hand an nur ein Conf zu legen lief das System wieder tadellos.
bevor ich memtest angeworfen habe, hab ich noch ne usv vorgeschaltet.

gropiuskalle
09.01.09, 21:01
wo kann ich da mal nachschauen?


rpm -qa kde4-kupdateapplet

luckystrikerulz
09.01.09, 21:17
rpm -qa kde4-kupdateapplet
kde? ich habe keine graphische oberfläche. server läuft ausschließlich im runlevel 3

memtest ist ohne fehler durchgelaufen


edit: habs tool von 3ware runtergeladen. das raid ist auch gesund..... werde jetzt wieder den memtest anwerfen und nach hause schlafen gehen

Wene
10.01.09, 10:21
hab die uhr mal zurückgedreht.
ist von 17:55 bis 18:10 gelaufen ohne das was passiert ist.

Stellt der aber nicht seine Uhr selbst wieder zurück? (per NTP)

Lass den Server mal mit falscher Uhrzeit weiterlaufen. Wenn er trotzdem um die selbe Realzeit hängen bleibt würde ich auf äussere Einflüsse tippen. ;)

In diesem Fall, um alles andere endgültig auszuschliessen, wie bereits erwähnt zur fraglichen Zeit den Server vom Netzwerk trennen.

luckystrikerulz
22.01.09, 14:04
Stellt der aber nicht seine Uhr selbst wieder zurück? (per NTP)
ja machter.
er bleibt im schnitt einmal am tag hängen, zeiten schwanken und in den logs steht nix. Wird dann resettet und läuft wieder nen tag.

ich bin inner woche wieder vor ort.
weitere tipps außer mal 2 tage vom netz trennen?

Leopardus
29.01.09, 16:08
Hallo Leute,
ich habe das gleiche Problem.
Bei mir friert das System täglich so gegen 16h ein. Es lässt sich pingen, aber weder ssh, samba noch die lokale Console lässt sich ansprechen.

Das Problem fing bei mir am Montag an. Ich hatte am Wochenende auf nem alten Server, der nur als Fileserver dient, das System neu installiert. Die damalige Hardware war schon recht alt (AMD XP 1700, 256 MB RAM). Am Montag hat die Kiste bis 16h seine treuen Dienste getan, bis dann 16h das Ding einfror und nix mehr ging. Also Kaltstart.... Am nächsten Tag hat das Gerät nur noch Zicken gemacht, weshalb ich es durch ein neuen Rechner (HP ProLiant) ersetzt habe, weil das Ding produktiv arbeiten muss. Also Daten gesichert, neues System aufgesetzt, Daten zurückgespielt. Mittwoch lief der Server wieder einfandfrei bis ca. 16h. Gleiches Spiel.
Zusammen mit dem Verkäufer, haben wir dann die Hardware gecheckt und die Logs durchgeschaut und nix gefunden, was verdächtig war. Wir haben vorsichtshalber den SIL-Raidcontroller ausgebaut und die Datenplatten mit nem Software-Raid verbunden, weil der Controller sowohl die Platten als Devices und das gemappte Raid als Device angeboten hat.
Heute hat der Rechner wieder einwandfrei gearbeitet, bis 16h!
So langsam hab ich echt keine Lust mehr, mir jede Nacht um die Ohren zu schlagen und nach möglichen Fehlern zu suchen. Vielleicht hat hier noch jemand nützliche Tipps für mich, denn ich bin so langsam mit meinem Rat am Ende.
Zur Konfiguration:
Suse 11.1 Standardkonfiguration, komplett mit yast eingerichtet.
Es läuft ausschließlich Samba mit einer hand voll Benutzerkonten.
Prozessor Intel Pentium D 1,8 GHz E2160
sda: 160 GB-Platte mit swap und "/" als Ext3
sdb und sdc: 2x 1TB im Softraid (md0) Raid1-Verbund als "/home/
2 GB RAM
statische Netzwerkonfiguration

Auf die Idee, in die Crons zu schauen, bin ich auch schon gekommen, kann aber nix finden, muss aber auch gestehen, dass ich da nicht so firn bin.

Vielen Dank schonmal für eure Hilfe.

Grüße Leopardus

Leopardus
29.01.09, 18:00
Ich habe mir mein Problem nun vielleicht auch selbst beantwortet :) :

Im Linuxkernel von Suse 11.1 gibt es einen Bug, der das System zum Einfrieren bringt:
https://bugzilla.novell.com/show_bug.cgi?id=463372

Samba löst diesen Bug wohl irgendwann aus, weshalb es zum Stillstand des Systems kommt:
http://www.mail-archive.com/samba%40lists.samba.org/msg98074.html

Wenn man dort der Beschreibung glaubt, fügt man in [global] die Option

notify:inotify = false

ein, und die Funktion wird umgangen. Dem Leienden in der Maillinglist hat das wohl geholfen. Ich habs jetzt mal eingefügt und warte morgen 16 Uhr ab...

PS: Die Fehlermeldung

smbd/notify_inotify.c:watch_destructor{351}

steht massenhaft in der /var/log/samba/log.smbd, hab mir bisher nur nix bei gedacht^^

kreol
29.01.09, 23:01
Habe den Thread gerade erstmals gesehen, aber bei #1 "SuSE 11.1" hat es schon gegruselt und nach "Bug!" gerufen...


Kreol

luckystrikerulz
06.02.09, 14:20
Die Fehlermeldung

smbd/notify_inotify.c:watch_destructor{351}

steht massenhaft in der /var/log/samba/log.smbd, hab mir bisher nur nix bei gedacht^^

vielen dank!
genau das gleiche ist es bei mir auch!

wie / in welches [global] füge ich die Zeile

notify:inotify = false
ein?

kreol
06.02.09, 15:02
Ich würde mal sagen in der /etc/samba/smb.conf. Mit dem Texteditor Deiner Wahl (nano, pico, vi(m) oder grafisch z.B. kwrite).


Kreol

P.S.
Vorsorglich: Das dürfte nur als root gehen. Dann ist su bzw. sudo Dein Freund bzw., wenns grafisch sein soll, "kdesu kwrite". Zumindest, wenn Du KDE verwendest.... Nach dem Ändern bietet es sich an, mit testparm die Syntax zu prüfen.

luckystrikerulz
06.02.09, 16:35
Ich würde mal sagen in der /etc/samba/smb.conf. Mit dem Texteditor Deiner Wahl (nano, pico, vi(m) oder grafisch z.B. kwrite).

mc :-)

habe die zeile eingefügt.
vielen vielen danke! :)

http://img12.imageshack.us/img12/2305/linuxforeney5.th.jpg (http://img12.imageshack.us/my.php?image=linuxforeney5.jpg)