PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : NFS Interrupt



zielscheibe
24.06.12, 16:23
Ich habe einen Client (Debian squeeze) der einen NFS-Share als /home für die Benutzer mountet. Jetzt kommt es aber immer wieder zu sporadischen Unterbrechungen der Netzwerkverbindung (auch der orginal Intel-ixgbe-Treiber ändert daran nichts). Manchmal läuft die Karte über Wochen stabil, manchmal aber nur ein paar Stunden. Es ist aber recht schwierig das Problem zu lösen bzw. erst mal finden zu können, da nachdem der NFS Share "abgerissen" ist, ich mich nicht mehr gescheit (lokal) einloggen kann. Ich habe als Parameter soft und hard Mount versucht und "intr" ist ebenfalls gesetzt. Das Passwort wird noch akzeptiert, dann ist aber Schluss. Mit Magic Sys Request lässt sich das Problem auch nicht lösen.
Vorschläge?

kreol
24.06.12, 18:03
Gibts Logs?

Kreol

zielscheibe
25.06.12, 09:31
Schon, aber aussagekräftig sind die leider nicht:



messages.1:Jun 19 17:00:21 mars kernel: [7354629.391108] ixgbe: eth0 NIC Link is Down
messages.1:Jun 19 17:00:22 mars kernel: [7354630.958812] ixgbe: eth0 NIC Link is Up 10 G
messages.1:Jun 19 17:00:34 mars kernel: [7354642.443274] ixgbe: eth0 NIC Link is Down
messages.1:Jun 19 17:00:34 mars kernel: [7354642.959464] ixgbe: eth0 NIC Link is Up 10 G
messages.1:Jun 19 17:00:54 mars kernel: [7354662.275385] ixgbe: eth0 NIC Link is Down
messages.1:Jun 19 17:00:56 mars kernel: [7354664.960729] ixgbe: eth0 NIC Link is Up 10 G
messages.1:Jun 19 17:04:36 mars kernel: [7354884.160425] ixgbe: eth0 NIC Link is Down
messages.1:Jun 19 17:04:36 mars kernel: [7354884.973166] ixgbe: eth0 NIC Link is Up 10 G
messages.1:Jun 19 17:04:43 mars kernel: [7354891.449684] ixgbe: eth0 NIC Link is Down
messages.1:Jun 19 17:04:44 mars kernel: [7354892.973547] ixgbe: eth0 NIC Link is Up 10 G

derRichard
25.06.12, 10:36
repariere mal lieber dein netzwerk.
ist da vielleicht ein kaputter switch im spiel?
oder die netzwerkkarte?

//richard

zielscheibe
25.06.12, 10:45
repariere mal lieber dein netzwerk.
ist da vielleicht ein kaputter switch im spiel?
oder die netzwerkkarte?

//richard

Um genau zu sein sind es mehrere Server, die jeweils direkt mit einem Netzwerkkabel, ohne Switch oder sonstige Netzelement, verbunden sind. Da kann der Fehler nicht liegen. BTW: Hat jemand eine Idee, wie man einen hängenden NFS-Mount-Proess ruhig gestellt bekommt?

derRichard
25.06.12, 10:52
und was ist wenn das kabel oder die netzwerkkarte was hat?
wenn der link von selbst down/up geht, dann ist da etwas im argen.

//richard

zielscheibe
25.06.12, 11:00
In der Theorie stimme ich dir ja zu, aber nicht, dass drei Server drei defekte Kabel und/oder drei defekte Netzwerkkarten haben....

derRichard
25.06.12, 11:05
dann such das problem mal schön in einem oberen layer. :cool:
jedenfalls hast du ein grobes problem im unteren netzwerklayer.

//richard

kreol
25.06.12, 18:29
...
BTW: Hat jemand eine Idee, wie man einen hängenden NFS-Mount-Proess ruhig gestellt bekommt?Verstehe nicht genau, was Du damit meinst, aber
man nfsist recht informativ. bg, intr und retrans scheinen mir besonders interessant.

Kreol

zielscheibe
25.06.12, 18:48
Verstehe nicht genau, was Du damit meinst,
Kreol

Die Verbidung zum Server reisst ab und der NFS Share steht nicht mehr zur Verfügung. Jetzt kann ich versuchen mich lokal einzuloggen, aber nachdem ich das korrekte Passwort eingegeben hat, passiert nichts. Ich kann mich auch als root, dessen "home" auf der lokalen Platte liegt und zunächst noch nichts mit dem share zu tun hat, nicht einloggen.

derRichard
25.06.12, 18:54
den zusammenhang zwischen netzwerk-link geht down und nfs-share ist nicht mehr erreichbar siehst du aber nicht? ;)

//richard

kreol
25.06.12, 18:57
"passiert nichts" und "kann mich nicht einloggen" sind ein weites Feld. Gibts Meldungen?

Ansonsten hat derRichard schon einiges geschrieben. Dein Netzwerk ist grob marode.

Falls Du Dich (irgendwann dann) lokal anmelden kannst könnte ein Neustart des nfsd helfen. Hier wäre das
/etc/init.d/nfs-kernel-server restart Oder Du schaust auf den nfs-clients mit "ps aux | grep nfs" nach passenden Prozessen und killst die. aber in erster Linie solltest Du, wie bereits empfohlen, an Deinem Netzwerk arbeiten.

Aber die benötigte Info kommt von Dir leider nur so tröpfchenweise, das ist etwas ermüdend, sry.

Kreol

zielscheibe
25.06.12, 19:01
Klar, den sehe ich schon, aber wenn der Apache oder mysql oder was auch immer Amok läuft, loggt man sich ein und lösst das Problem. Ich möchte einen Login bekommen und ein "/etc/init.d/nfs-kernel-server stop", "ifdown ethX", "umount /xxx" oder was auch immer machen können. Das geht aber nicht, es gibt nur eine Möglichkeit und das ist ein Neustart. Es muss doch eine bessere Lösung geben? Wenn er beim Hochfahren den share nicht mouten kann, gibt er es irgendwann (timeout) ja auch auf.

zielscheibe
25.06.12, 19:37
"passiert nichts" und "kann mich nicht einloggen" sind ein weites Feld. Gibts Meldungen?


Gebe ich das falsche PW ein, bekomme ich die Meldung, dass es nicht stimmt. Die Prüfung des PW funktioniert also noch und wird auch abgearbeitet. Gebe ich das richtige PW ein, bekomme ich einfach keinen Prompt.



Ansonsten hat derRichard schon einiges geschrieben. Dein Netzwerk ist grob marode.

Es ist die 10GBit/s Netzwerkkarte, die das Problem verursacht, nehme ich eine der "onboard" 1GBit/s Karten, tritt dieses Problem nicht auf. Aber ich möchte selbstverständlich irgendwann die "schnelle" Karte verwenden.



Falls Du Dich (irgendwann dann) lokal anmelden kannst könnte ein Neustart des nfsd helfen. Hier wäre das
/etc/init.d/nfs-kernel-server restart Oder Du schaust auf den nfs-clients mit "ps aux | grep nfs" nach passenden Prozessen und killst die. aber in erster Linie solltest Du, wie bereits empfohlen, an Deinem Netzwerk arbeiten.

Das ist ja genau mein Problem, ich würde gerne debuggen, aber das geht leider nicht :-(



Aber die benötigte Info kommt von Dir leider nur so tröpfchenweise, das ist etwas ermüdend, sry.
Kreol
Sorry, ich dachte, dass jemand schon mal das Problem hatte mit Einloggen nach NFS Problemen. Auch das remounten mit den magicSysRequests hilft hier nicht weiter.

derRichard
25.06.12, 19:43
ja, wenn es mit einer andere netzwerkkarte geht, dann brauchst nicht mehr lange beim nfs suchen woran es liegt.
und, dass sonst alles mögliche hängt ist dann auch klar.
wenn der kernel den nfs-server nicht mehr erreicht, dann blickiert eben alles mögliche.
du kannst ja mal nfs mit "soft" mounten. je nachdem wie kaputt dein netz ist, hilft das vielleicht.

//richard

OliverH
27.06.12, 21:25
Es ist die 10GBit/s Netzwerkkarte, die das Problem verursacht, nehme ich eine der "onboard" 1GBit/s Karten, tritt dieses Problem nicht auf.

Es gilt das Peter-Prinzip: http://www.youtube.com/watch?v=2r_u1F3IQNU

:ugly:

zielscheibe
28.01.13, 14:19
Backports-Kernel löst das Problem



apt-get install firmware-bnx2 initramfs-tools linux-base linux-image-3.2.0-0.bpo.4-amd64 linux-image-amd64 -t squeeze-backports