Hallo,
wir haben hier einen Server mit einem Software-RAID-0 (mdadm). Neben diesem Raid gibt es noch verschiedene andere Platten am selben Controller (3ware), unter anderem eine Backup-Platte, die regelmäßig ausgetauscht wird. Seit wir bei betreffedem Raid von HW- auf SW-RAID umgestiegen sind, steigt der RAID Verbund jedes Mal mit einem I/O-error aus, wenn man die Backup-Platte auswechselt. Die Backup-Platte wird fürs Backup per Script eingebunden und nach dem Backup per tw_cli aus der Obhut des Controllers entlassen.
Hat jemand eine Idee, wo das Problem liegen könnte?
poste doch mal das Script und die Konfig. Sicherlich gibt es auch ein paar Ausgaben im Logfile...
Wollte ich grade hinzufügen:
May 11 10:21:46 monique kernel: Synchronizing SCSI cache for disk sdd:
May 11 10:21:47 monique kernel: FAILED
May 11 10:21:47 monique kernel: status = 1, message = 00, host = 0, driver = 08
May 11 10:21:47 monique kernel: <6>sd: Current: sense key: Not Ready
May 11 10:21:47 monique kernel: Additional sense: Logical unit is in process of becoming ready
May 11 10:21:47 monique kernel: sas: phy5 added to port0, phy_mask:0x20
May 11 10:21:47 monique kernel: sas: DOING DISCOVERY on port 0, pid:2741
May 11 10:21:47 monique kernel: scsi 6:0:3:0: Direct-Access FUJITSU MBA3300RC 0103 PQ: 0 ANSI: 5
May 11 10:21:48 monique kernel: sdg: Spinning up disk...<3>scsi 6:0:2:0: rejecting I/O to dead device
May 11 10:22:05 monique kernel: .................ready
May 11 10:22:05 monique kernel: SCSI device sdg: 585937500 512-byte hdwr sectors (300000 MB)
May 11 10:22:05 monique kernel: sdg: Write Protect is off
May 11 10:22:05 monique kernel: sdg: Mode Sense: bf 00 00 08
May 11 10:22:05 monique kernel: SCSI device sdg: write cache: enabled, read cache: enabled, doesn't support DPO or FUA
May 11 10:22:05 monique kernel: SCSI device sdg: 585937500 512-byte hdwr sectors (300000 MB)
May 11 10:22:05 monique kernel: sdg: Write Protect is off
May 11 10:22:05 monique kernel: sdg: Mode Sense: bf 00 00 08
May 11 10:22:05 monique kernel: SCSI device sdg: write cache: enabled, read cache: enabled, doesn't support DPO or FUA
May 11 10:22:05 monique kernel: sdg: sdg1
May 11 10:22:05 monique kernel: sd 6:0:3:0: Attached scsi disk sdg
May 11 10:22:05 monique kernel: sd 6:0:3:0: Attached scsi generic sg4 type 0
May 11 10:22:05 monique kernel: sas: DONE DISCOVERY on port 0, pid:2741, result:0
May 11 10:22:05 monique kernel: scsi 6:0:2:0: rejecting I/O to dead device
May 11 10:22:05 monique kernel: xfs_force_shutdown(md0,0x1) called from line 424 of file fs/xfs/xfs_rw.c. Return address = 0xf8adaf4c
May 11 10:22:05 monique kernel: Filesystem "md0": I/O Error Detected. Shutting down filesystem: md0
May 11 10:22:05 monique kernel: Please umount the filesystem, and rectify the problem(s)
May 11 10:23:46 monique kernel: md: md0 still in use.
May 11 10:23:46 monique kernel: md: md0 still in use.
May 11 10:23:46 monique kernel: scsi 6:0:2:0: rejecting I/O to dead device
May 11 10:23:46 monique kernel: printk: 15622 messages suppressed.
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 0
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 1
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 2
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 3
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 4
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 5
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 6
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 7
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 8
May 11 10:23:46 monique kernel: Buffer I/O error on device md0, logical block 9
May 11 10:23:46 monique kernel: scsi 6:0:2:0: rejecting I/O to dead device
May 11 10:23:46 monique last message repeated 7 times
May 11 10:25:42 monique kernel: md: md0 still in use.
May 11 10:25:42 monique kernel: md: md0 still in use.
May 11 10:25:42 monique kernel: scsi 6:0:2:0: rejecting I/O to dead device
May 11 10:25:42 monique kernel: printk: 30 messages suppressed.
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 0
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 1
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 2
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 3
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 4
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 5
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 6
May 11 10:25:42 monique kernel: Buffer I/O error on device md0, logical block 7
Wobei mir grad nicht ganz klar ist wer oder was sdg ist, ich werde dem nachgehen. Das besagte RAID (md0) besteht aus sde1 und sdf1, die Backup-Blatte ist sdd.
/etc/init.d/mdadm-raid restart ging nicht, da md0 "busy" war, Zugriff auf die Platte resultierten in einem I/O-Error.
Die Zeilen des Backup-Scripts, die die Platte ein- und aushängen:
/root/bin/tw_cli maint rescan c5
mount /dev/sdxy /hdbackup # das device wird zuvor per uuid ermittelt
umount -l /hdbackup
/root/bin/tw_cli maint remove c5 u7
EDIT: sdg scheint zum betreffenden Zeitpunkt doch zum RAID gehört zu haben.
Hat wirklich keiner eine Idee warum das Software-RAID aussteigt, wenn man die (natürlich nicht im betreffenden RAID hängende) Backup-Platte wechselt?
Powered by vBulletin® Version 4.2.5 Copyright ©2024 Adduco Digital e.K. und vBulletin Solutions, Inc. Alle Rechte vorbehalten.