PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : SW-Raid: Problem mit (anderer) Platte im Wechselrahmen



polygon
11.05.09, 11:58
Hallo,

wir haben hier einen Server mit einem Software-RAID-0 (mdadm). Neben diesem Raid gibt es noch verschiedene andere Platten am selben Controller (3ware), unter anderem eine Backup-Platte, die regelmäßig ausgetauscht wird. Seit wir bei betreffedem Raid von HW- auf SW-RAID umgestiegen sind, steigt der RAID Verbund jedes Mal mit einem I/O-error aus, wenn man die Backup-Platte auswechselt. Die Backup-Platte wird fürs Backup per Script eingebunden und nach dem Backup per tw_cli aus der Obhut des Controllers entlassen.

Hat jemand eine Idee, wo das Problem liegen könnte?

marce
11.05.09, 12:07
poste doch mal das Script und die Konfig. Sicherlich gibt es auch ein paar Ausgaben im Logfile...

polygon
11.05.09, 12:32
Wollte ich grade hinzufügen:


May 11 10:21:46 monique kernel: Synchronizing SCSI cache for disk sdd:
May 11 10:21:47 monique kernel: FAILED
May 11 10:21:47 monique kernel: status = 1, message = 00, host = 0, driver = 08
May 11 10:21:47 monique kernel: <6>sd: Current: sense key: Not Ready
May 11 10:21:47 monique kernel: Additional sense: Logical unit is in process of becoming ready
May 11 10:21:47 monique kernel: sas: phy5 added to port0, phy_mask:0x20
May 11 10:21:47 monique kernel: sas: DOING DISCOVERY on port 0, pid:2741
May 11 10:21:47 monique kernel: scsi 6:0:3:0: Direct-Access FUJITSU MBA3300RC 0103 PQ: 0 ANSI: 5
May 11 10:21:48 monique kernel: sdg: Spinning up disk...<3>scsi 6:0:2:0: rejecting I/O to dead device
May 11 10:22:05 monique kernel: .................ready
May 11 10:22:05 monique kernel: SCSI device sdg: 585937500 512-byte hdwr sectors (300000 MB)
May 11 10:22:05 monique kernel: sdg: Write Protect is off
May 11 10:22:05 monique kernel: sdg: Mode Sense: bf 00 00 08
May 11 10:22:05 monique kernel: SCSI device sdg: write cache: enabled, read cache: enabled, doesn't support DPO or FUA
May 11 10:22:05 monique kernel: SCSI device sdg: 585937500 512-byte hdwr sectors (300000 MB)
May 11 10:22:05 monique kernel: sdg: Write Protect is off
May 11 10:22:05 monique kernel: sdg: Mode Sense: bf 00 00 08
May 11 10:22:05 monique kernel: SCSI device sdg: write cache: enabled, read cache: enabled, doesn't support DPO or FUA
May 11 10:22:05 monique kernel: sdg: sdg1
May 11 10:22:05 monique kernel: sd 6:0:3:0: Attached scsi disk sdg
May 11 10:22:05 monique kernel: sd 6:0:3:0: Attached scsi generic sg4 type 0
May 11 10:22:05 monique kernel: sas: DONE DISCOVERY on port 0, pid:2741, result:0
May 11 10:22:05 monique kernel: scsi 6:0:2:0: rejecting I/O to dead device
May 11 10:22:05 monique kernel: xfs_force_shutdown(md0,0x1) called from line 424 of file fs/xfs/xfs_rw.c. Return address = 0xf8adaf4c
May 11 10:22:05 monique kernel: Filesystem "md0": I/O Error Detected. Shutting down filesystem: md0
May 11 10:22:05 monique kernel: Please umount the filesystem, and rectify the problem(s)
May 11 10:23:46 monique kernel: md: md0 still in use.
May 11 10:23:46 monique kernel: md: md0 still in use.
May 11 10:23:46 monique kernel: scsi 6:0:2:0: rejecting I/O to dead device
May 11 10:23:46 monique kernel: printk: 15622 messages suppressed.
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 0
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 1
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 2
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 3
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 4
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 5
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 6
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 7
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 8
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 9
May 11 10:23:46 monique kernel: scsi 6:0:2:0: rejecting I/O to dead device
May 11 10:23:46 monique last message repeated 7 times
May 11 10:25:42 monique kernel: md: md0 still in use.
May 11 10:25:42 monique kernel: md: md0 still in use.
May 11 10:25:42 monique kernel: scsi 6:0:2:0: rejecting I/O to dead device
May 11 10:25:42 monique kernel: printk: 30 messages suppressed.
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 0
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 1
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 2
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 3
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 4
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 5
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 6
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 7

Wobei mir grad nicht ganz klar ist wer oder was sdg ist, ich werde dem nachgehen. Das besagte RAID (md0) besteht aus sde1 und sdf1, die Backup-Blatte ist sdd.

/etc/init.d/mdadm-raid restart ging nicht, da md0 "busy" war, Zugriff auf die Platte resultierten in einem I/O-Error.

Die Zeilen des Backup-Scripts, die die Platte ein- und aushängen:


/root/bin/tw_cli maint rescan c5
mount /dev/sdxy /hdbackup # das device wird zuvor per uuid ermittelt
umount -l /hdbackup
/root/bin/tw_cli maint remove c5 u7


EDIT: sdg scheint zum betreffenden Zeitpunkt doch zum RAID gehört zu haben.

polygon
05.06.09, 11:55
Hat wirklich keiner eine Idee warum das Software-RAID aussteigt, wenn man die (natürlich nicht im betreffenden RAID hängende) Backup-Platte wechselt?