PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : NFS4 schmiert ab / Fehlermeldungen



AndreasMeier
12.01.11, 12:17
Hallo zusammen,

ich hab auf meinem Server im lokalen LAN eine NFS4-Freigabe.

Seit kurzem hab ich aber Probleme und erhalte bei Zugriff z.B. diese Fehlermeldung(en):


essage from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] Oops: 0000 [#1] SMP

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] Process nfsd (pid: 3815, ti=d608e000 task=d6370b00 task.ti=d608e000)

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] Stack: 00000000 c0177500 d608fcbc d700eca0 00000000 c68c1c00 c68c1c00 00000800

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] d8ddfd0d d52bec50 c0767344 c68c1c00 00000000 00800000 c07c602c 00000000

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] 00000000 00000002 c01904ae 00001000 000080f5 00000000 d6c02040 d608fce0

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] Call Trace:

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c0177500>] vfs_getattr+0x18/0x4d

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8ddfd0d>] nfsd4_encode_fattr+0xdc/0x13d4 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c01904ae>] __getblk+0x27/0x24e

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c01904ae>] __getblk+0x27/0x24e

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c0190e41>] ll_rw_block+0xb6/0xca

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8980bee>] search_by_key+0x157/0xca1 [reiserfs]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c02592d6>] dev_hard_start_xmit+0x1eb/0x24f

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c0267396>] __qdisc_run+0xcc/0x17c

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c01361c0>] getnstimeofday+0x37/0xbc

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c0134638>] ktime_get_ts+0x22/0x49

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c019047d>] __find_get_block+0x176/0x180

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8980a4f>] pathrelse+0x15/0x24 [reiserfs]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8972ada>] reiserfs_read_locked_inode+0x4c9/0x4d1 [reiserfs]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d896f6b6>] search_by_entry_key+0x14/0x223 [reiserfs]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d896f92a>] reiserfs_find_entry+0x65/0x2af [reiserfs]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c0182714>] d_rehash+0x1c/0x29

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c01840b2>] d_splice_alias+0xc5/0xcb

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d897006a>] reiserfs_lookup+0xee/0x102 [reiserfs]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c017ab3d>] __lookup_hash+0xb1/0xdf

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8de1f27>] nfsd4_encode_dirent+0x14b/0x204 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8976af4>] reiserfs_readdir+0x2ce/0x406 [reiserfs]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8de1ddc>] nfsd4_encode_dirent+0x0/0x204 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8dd1670>] fh_verify+0x30e/0x457 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c01758b2>] file_move+0x14/0x34

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c017eda8>] vfs_readdir+0x62/0x8c

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8de1ddc>] nfsd4_encode_dirent+0x0/0x204 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8dd2c47>] nfsd_readdir+0x5f/0xb1 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8ddf8e4>] nfsd4_encode_readdir+0xd8/0x1ca [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8de1ddc>] nfsd4_encode_dirent+0x0/0x204 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8de199b>] nfsd4_encode_operation+0x996/0xccd [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8ddbf2d>] nfsd4_putfh+0x41/0x48 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8ddb9c3>] nfsd4_readdir+0x0/0x70 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8ddbe44>] nfsd4_proc_compound+0x1ad/0x255 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8d32b12>] svcauth_unix_accept+0x158/0x243 [sunrpc]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8dcf205>] nfsd_dispatch+0xca/0x192 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8d2ffb1>] svc_process+0x3a1/0x620 [sunrpc]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8dcf731>] nfsd+0x171/0x268 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<d8dcf5c0>] nfsd+0x0/0x268 [nfsd]

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] [<c01044f7>] kernel_thread_helper+0x7/0x10

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] =======================

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] Code: e4 00 00 00 59 5e 89 c3 89 d8 5b 5e c3 f6 80 45 01 00 00 02 75 0c 8b 15 a4 18 41 c0 ff 92 e0 00 00 00 c3 53 89 c3 8b 42 0c 31 c9 <f6> 80 45 01 00 00 02 75 10 8b 0d a4 18 41 c0 89 d8 ff 91 dc 00

Message from syslogd@server at Wed Jan 12 13:12:25 2011 ...
server kernel: [176864.151795] EIP: [<c01bb540>] security_inode_getattr+0x8/0x25 SS:ESP 0068:d608fa28
Jan 12 13:12:25 server kernel: [176864.151795] *pde = 00000000
Jan 12 13:12:25 server kernel: [176864.151795] Modules linked in: xt_tcpudp ipt_LOG xt_limit xt_multiport iptable_filter ip_tables x_tables ppdev lp nfsd auth_rpcgss exportfs nfs lockd nfs_acl sunrpc ipv6 quota_v2 dm_snapshot dm_mirror dm_log dm_mod smsc47m1 fscpos loop snd_cs4232 snd_opl3_lib snd_hwdep snd_cs4231_lib snd_mpu401 snd_mpu401_uart snd_seq_midi snd_seq_midi_event snd_rawmidi ns558 gameport parport_pc parport container snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm snd_seq snd_timer snd_seq_device snd button usblp psmouse pcspkr soundcore serio_raw snd_page_alloc i2c_i801 i2c_core shpchp pci_hotplug rng_core intel_agp agpgart evdev reiserfs raid1 md_mod ide_cd_mod cdrom ide_disk floppy piix ide_pci_generic ide_core e100 mii ata_generic uhci_hcd libata usbcore scsi_mod dock thermal processor fan thermal_sys [last unloaded: scsi_wait_scan]
Jan 12 13:12:25 server kernel: [176864.151795]
Jan 12 13:12:25 server kernel: [176864.151795] Pid: 3815, comm: nfsd Not tainted (2.6.26-2-686 #1)
Jan 12 13:12:25 server kernel: [176864.151795] EIP: 0060:[<c01bb540>] EFLAGS: 00010246 CPU: 0
Jan 12 13:12:25 server kernel: [176864.151795] EIP is at security_inode_getattr+0x8/0x25
Jan 12 13:12:25 server kernel: [176864.151795] EAX: 00000000 EBX: d700eca0 ECX: 00000000 EDX: c0767344
Jan 12 13:12:25 server kernel: [176864.151795] ESI: c0767344 EDI: c68c1c00 EBP: 00000000 ESP: d608fa28
Jan 12 13:12:25 server kernel: [176864.151795] DS: 007b ES: 007b FS: 00d8 GS: 0000 SS: 0068
Jan 12 13:12:25 server kernel: [176864.159763] ---[ end trace 2ac1be3d62388f71 ]---


O.g. Fehlermeldung hatte ich erhalten, als ich ein (grosses) Verzeichnis mit UNISON übers LAN synchroniseren wollte.
Unison ist dann hängen geblieben / abgestürzt.

Die normale NFS4-Einbindung ist aber noch aktiv und nicht betroffen.

Über jede Hilfe dankbar...

Gruß
Andreas

Stormbringer
12.01.11, 12:24
Hast schon einmal das filesystem (reiserfs) geprüft?

AndreasMeier
12.01.11, 13:24
Bei der NFS-Freigabe handelt es sich um ein RAID1.

Was muss es denn da genau checken ?
Das Raid im Ganzen (/dev/md0) oder die Einzelplatten (/dev/hda1 und /dev/hdb1) ?

Stormbringer
12.01.11, 13:50
unmounte das entsprechende device (umount /dev/md0), und laß mal ein "reiserfsck --check /dev/md0" drüberlaufen.

AndreasMeier
12.01.11, 14:09
Umounten konnte ich nicht, weil irgendwas noch auf das Raid zugegriffen hat (war busy).
Und das obwohl ich alle Dienst bereits gestoppt hatte.

Ich hab jetzt mal mit Knoppix-LiveCD gebootet und hab gerade den Check für die 1.Platte laufen.

Da kommen schon ein paar Einträge.
Jetzt bin ich mir mit dem Raid nicht ganz so sicher. Darf ich die Einzelplatte(n) mit Reiserfsck reparieren lassen ?
Oder muss ich das auf RAID-Ebene (/dev/md0) machen ?

Nachtrag:
Der erste Check ist fertig.


Comparing bitmaps..vpf-10640: The on-disk and the correct bitmaps differs.
Fatal corruptions were found, Semantic pass skipped
7 found corruptions can be fixed only when running with --rebuild-tree


Der Check für die zweite Platte lief bereits ebenfalls und hat dasselbe Ergebnis gebracht wie die erste Platte.

Es bleibt die Frage: darf ich bei einem Raid die Einzelplatten mit --rebuild-tree reparieren ?

AndreasMeier
12.01.11, 15:17
So, hab jetzt neu gestartet und mein Debian im Single-User-Modus gestartet.
Raid war nach Start nicht gemountet.
Hab dann nochmal den Check wie oben angegeben über /dev/md0 laufen lassen, natürlich ebenfalls mit dem gleichen Resultat.

Ich werd jetzt dann mal ein dd-Image von der Platte als Backup machen und danach mit --rebuild-tree das FS reparieren.
Hoffentlich geht das gut.

Danke und Gruß
Andreas

Stormbringer
13.01.11, 05:03
Und? Hat es etwas bewirkt?
Du solltest eh vor jedem rebuild-Versuch ein Backup irgendeiner Art erstellen ;)

AndreasMeier
13.01.11, 06:38
Weiß ich noch nicht, meine letzte Aktion war gestern, dass ich das Backup angestossen hab.
Da ich 2 Platten a 100GB sichern muss, hat das ne Ecke gedauert, Backup ist/sollte heut nacht (hoffentlich problemlos) durchgelaufen sein.
Ich werds dann sehen.

Sofern das durch ist, werd ich den Rebuild starten.

Was ich bis dato trotzdem noch nicht rausfinden konnte:
Es handelt sich ja um ein Raid1, also sind die Platten gespiegelt.
Kann ich erstmal nur einen Einzelteil des Raids per rebuild reparieren und dann danach, sofern der Versuch gut geht, den zweiten Teil nachziehen?

Gruß
Andreas

AndreasMeier
13.01.11, 07:55
Tja, vom Weitermachen bin ich weit entfernt.
Gestartet hab ich gestern um 21 Uhr, jetzt waren gerade mal 40 von 200GB fertig.
Backup geht scheinbar etwas langsam über USB :-(
Naja, dann wird der Tag sich wohl heute etwas anders gestalten wie gehofft.

cane
13.01.11, 11:48
Ich würde auf Servern oder sonstigen wichtigen systemen never eher ReiserFS verwenden - die Chance den Tree rebuilded zu bekommen ist maximal 50 %, zudem dauert es wirklich ewig.

mfg
cane

AndreasMeier
13.01.11, 13:26
Welches FS würdest Du anstatt dessen nehmen ?

Stormbringer
13.01.11, 14:02
.. bei uns hat sich bei den Linuxsystemen ext4 bewährt.