PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : RAID1 - Platte defekt?



df8oe
25.05.05, 10:56
Hallo an alle,

ich habe auf meinem (Linux)-Server seit Jahren ein Soft-RAID1 - System laufen. Gestern nun hat sich das System mit einer Kernel-Panic "in die Ecke gehängt". Irgendwas Aussagekräftiges stand nicht im Log, also habe ich das System wieder gestartet und gesehen, was passiert.

Es läuft eine SuSE 8.1 darauf mit zwei IDE-Platten und insgesamt drei md - Devices.

Der Resync von /dev/md0 und /dev/md1 verlief schnell und fehlerfrei, bei /dev/md2 jedoch gab es ein Problem: bei 98,2% wurde auf einmal der Datendurchsatz beim Resyncen immer geringer, und irgendwann war er anstelle von 30.000kb/s bei 500kb/s. Dann war es das - System wieder in der Ecke :(

Ich vermutete also, daß es sich um einen Plattenfehler handelt und habe eine der beiden Platten aus dem betreffenden raid als "faulty" gesetzt und dann mit raidhotremove entfernt. Seitdem läuft das System einwandfrei und stabil.

Ein fsck auf der verbliebenen Platte im betreffenden md erbrachte keine Fehler; ich habe wohl durch Zufall das richtige Device entfernt.
Ich möchte natürlich gerne wissen, ob es wirklich das "richtige" device war, und will nun auf der entsprechenden Partition des entfernten devices (die ja nun nicht mehr in Betrieb ist) einen ausfühtlichen Schreib/Lesetest durchführen. Z.B. alle Sektoren mit 00 beschreiben und wieder lesen...

Dazu reichen meine Konsolenkenntnisse aber nicht aus. Mit welchem Befehl kann ich alle Sektoren der betreffenden Partition auf die beschrieben Weise testen? Auch, wenn es recht unwahrscheinlich ist, daß die zweite Platte auch noch ausfällt: so mag ich es nicht...

Fragend
df8oe

df8oe
25.05.05, 11:30
Am Besten sind immer die Fragen, die man dann nach rtfm und man selbst beantwortet :rolleyes:

1) Überprüfung einer Partition, die nicht einghängt ist und auf der keine Daten sind :

badblocks -w -v /dev/...

Die Option -w schreibt Testmuster auf das Device und zerstört so Daten, die darauf sind!

2) Überprüfung einer Partition, die nicht einghängt ist und auf der wichtige Daten sind :

badblocks -n -v /dev/...

Die Option -w ist zwar wesentlich schneller als -n, aber sie ist "destruktiv". Es werden nacheinander alle Sektoren des betreffenden devices mit Prüfmustern beschrieben und wieder gelesen. Bei -n geht das ähnlich, es wird aber vorher der tatsächlich dort stehende Inhalt gesichert und nach dem Test des betreffenden Sektors wieder zurückgeschrieben.

Vielleicht braucht das ja mal wer anders noch :)

Gruß
df8oe

s.F
29.05.05, 18:36
Downloade dir die UBCD von diesem Link hier.
http://ultimatebootcd.com/download.html

- Iso auf CD Brennen und von dort booten.

Mit Leertaste kannst im Menü glaub ich weiter
"durchblettern". Dort findest du die Aktuellen
HDD Drive Tools der jeweiligen Platten Hersteller.

Im notfall kannst auch den IBM Drive Fitness Test
verwenden (auch wenn es keine IBM/Hitachi HDD ist).

Die jeweiligen Tools kannst direkt von der CD aus starten.
Damit kannst der Festplatte auf den "Zahn" fühlen.
Falls noch Garantie drauf ist - RMA auf der Website
einleiten - abschicken und auf Post warten :D

Greetings,
s.F

RapidMax
30.05.05, 00:19
Bei neueren Platten kannst du auch über smartctl aus den smartmontools den S.M.A.R.T Status der Platte auslesen (smartctl -a /dev/hdX). In diesem Fall besonders interessant:

5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
und

SMART Error Log Version: 1
No Errors Logged
Wenn die Platte Fehler im Log hat, ist es nicht mehr so gut... und ebenso wenn die reallozierten Sektoren zunehmen (daher ist es nicht schlecht, vor und nach dem badblocks-Test diesen Wert auszulesen).

Gruss, Andy

BSM
30.05.05, 16:35
Hm, Ich klink mich einfach mal so hier rein ;)

Auf einer Platte hab ich


5 Reallocated_Sector_Ct 0x0033 252 250 063 Pre-fail Always - 16

Die schlechten Sektoren hab ich schon gefunden, die waren im Backup :ugly:

Auf der zweiten Platte hab ich zwei


Error 2 occurred at disk power-on lifetime: 2969 hours (123 days + 17 hours)
When the command that caused the error occurred, the device was in an unknown state.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 08 3f d9 79 e0 Error: ICRC, ABRT 8 sectors at LBA = 0x0079d93f = 7985471

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 00 47 86 a7 f4 08 1d+04:54:53.296 READ DMA
ca 00 10 6f 40 bb f0 08 1d+04:54:53.280 WRITE DMA
ca 00 08 ef 41 6b f5 08 1d+04:54:53.248 WRITE DMA
e1 00 08 4f 6c b1 f0 08 1d+04:54:53.200 IDLE IMMEDIATE
20 00 00 47 86 a7 f4 08 1d+04:54:53.184 READ SECTOR(S)


Sind das hier "einfach so" Fehler oder sollte ich mir da auch Gedanken machen?

Sind die schlechten Sektoren eigentlich ein Umtauschgrund?

Danke,

Gruss Robert