PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Fehler mit SW-RAID5



Crys
30.05.14, 11:52
Ich habe einen Server mit Xubuntu 14 LTS und ein Software-RAID5 frei nach http://wiki.ubuntuusers.de/Software-RAID installiert.

Das klappte auch so einwandfrei. Ich habe zuerst 3 HDDs zum RAID5 zusammen gefasst, dann habe ich den Inhalt einer 4ten HDD auf die neuen Partition kopiert. Soweit kein Probmen oder Fehler.
Dann habe ich die 4te HDD formatiert (http://wiki.ubuntuusers.de/Software-RAID#Partitionierung), als Hotspare hinzugefügt (http://wiki.ubuntuusers.de/Software-RAID#Hotspare-hinzufuegen) und dann versucht das RAID neu aufzubauen (http://wiki.ubuntuusers.de/Software-RAID#RAID-erweitern).
Beim ersten Befehl ist aber ein Fehler gekommen, dass das RAID gerade beschäftigt ist. Als ich den status ausgelessen habe, habe ich gesehen das die Spare-HDD gerade synchronisiert wird.
Dann habe ich gewartet und der hat den Befehl wohl nachträglich nach der synchronisierung noch ausgeführt.
Bei resize2fs /dev/md0 kann die Meldung das das RAID schon groß genug ist, mit mdadm --detail /dev/md1 habe ich wieder gesehen, dass die neue HDD synchronisiert wird.
Nach etlichen Stunden habe ich dann gemerkt das der Server einfach neu gestartet hat.

Jetzt kann ich RAID nicht mehr mounten und aus dem ehemaligen RAID /dev/md1 ist /dev/md127 geworden. Ich habe das nicht veranlasst.

Wenn ich am Desktop die Vernüung zur RAID5 Partition versuche anzuklicken (zu mounten), kann ich das nach einen Neustart erfolgreich machen und ich komme in den Ordner.
Wenn ich dann versuche den Ordner noch einmal zu öffnen kommt das:
Der Datenträger »Datenträger 9,0 TB« konnte nicht eingehängt werden.

Error mounting /dev/md127 at /media/chris/80603ee5-5e6e-4281-966a-b752f3cbb047: Command-line `mount -t "ext4" -o "uhelper=udisks2,nodev,nosuid" "/dev/md127" "/media/chris/80603ee5-5e6e-4281-966a-b752f3cbb047"' exited with non-zero exit status 32: mount: wrong fs type, bad option, bad superblock on /dev/md127,
missing codepage or helper program, or other error
In some cases useful info is found in syslog - try
dmesg | tail or so

Wenn ich versuche mount /dev/md127 /media/freigaben kommt die Meldung:
mount: wrong fs type, bad option, bad superblock on /dev/md127,
missing codepage or helper program, or other error
Manchmal liefert das Syslog wertvolle Informationen – versuchen
Sie dmesg | tail oder so
Bei dmesg | tail kommt:
[ 157.241476] JBD2: no valid journal superblock found
[ 157.241482] EXT4-fs (md127): error loading journal
[ 293.037125] JBD2: no valid journal superblock found
[ 293.037138] EXT4-fs (md127): error loading journal
[ 317.080928] JBD2: no valid journal superblock found
[ 317.080941] EXT4-fs (md127): error loading journal
[ 3037.391477] JBD2: no valid journal superblock found
[ 3037.391482] EXT4-fs (md127): error loading journal
[ 4578.184358] JBD2: no valid journal superblock found
[ 4578.184364] EXT4-fs (md127): error loading journal


Bei mdadm --detail /dev/md127 kommt:
/dev/md127:
Version : 1.2
Creation Time : Wed May 28 13:12:28 2014
Raid Level : raid5
Array Size : 8790389760 (8383.17 GiB 9001.36 GB)
Used Dev Size : 2930129920 (2794.39 GiB 3000.45 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent

Update Time : Fri May 30 11:28:20 2014
State : clean
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 512K

Name : ChrisXu:1 (local to host ChrisXu)
UUID : c4236ee8:8d61ac08:65ddda03:efe37f21
Events : 6347

Number Major Minor RaidDevice State
0 8 97 0 active sync /dev/sdg1
1 8 81 1 active sync /dev/sdf1
3 8 49 2 active sync /dev/sdd1
4 8 65 3 active sync /dev/sde1
Also eig. alles in Ordnung!?

Bei blkid -o list -w /dev/null sieht das so aus:
device fs_type label mount point UUID
--------------------------------------------------------------------------------------------------------------------------
/dev/sda1 ext4 /boot 5dba167f-348d-4a10-8cd7-e702b12a5fb7
/dev/sda2 ext4 / a6191685-7b62-4bf4-9ce5-5a80ebaf2894
/dev/sda3 swap <swap> e5b9646d-d4b1-469d-ba79-474a585c1062
/dev/sda5 ext4 sicherung (not mounted) bc44ab3f-e288-45ff-806e-25bbe621dd16
/dev/sdb1 linux_raid_member ChrisXu:9 (in use) 10d547fc-fcb4-34f1-86d0-04935bf9df2f
/dev/sdc1 linux_raid_member ChrisXu:9 (in use) 10d547fc-fcb4-34f1-86d0-04935bf9df2f
/dev/sdd1 linux_raid_member ChrisXu:1 (in use) c4236ee8-8d61-ac08-65dd-da03efe37f21
/dev/md127 ext4 (not mounted) 80603ee5-5e6e-4281-966a-b752f3cbb047
/dev/sde1 linux_raid_member ChrisXu:1 (in use) c4236ee8-8d61-ac08-65dd-da03efe37f21
/dev/sdf1 linux_raid_member ChrisXu:1 (in use) c4236ee8-8d61-ac08-65dd-da03efe37f21
/dev/sdg1 linux_raid_member ChrisXu:1 (in use) c4236ee8-8d61-ac08-65dd-da03efe37f21
/dev/md126 ext4 (not mounted) 81d51a6a-ecad-4775-8af5-9ebd5187cb4d(md126 ist ein RAID0 aus sdb1 und sdc1. Erstellt habe ich dieses auch als md9, es wurde auch plötzlich umbennant. Das funktioniert noch ohne Probleme)

Was ist da passiert?
Wie bekomme ich das wieder zum laufen?

Crys
31.05.14, 15:13
Ich habe jetzt mittels fsck.ext4 -f /dev/md127 die RAID-Partition überprüfen lassen und es kamen sehr viele Fehler (ca. 20.000) das Blöcke eine Falsche Summe haben, was ich alles mit ja reparieren lies.
Jetzt konnte ich die Partition ohne Probleme mounten ... aber von den ehemals 4TB auf der Partition sind noch 0,6TB übrig. Es fehlt ein kompletter Ordner mit ~3TB. Dieser Ordner war der komplette Inhalt der 4ten HDD, denn ich an das RAID kopiert habe, dann die 4te HDD formatiert habe und in das RAID eingehängt habe (wie oben beschrieben).

Jetzt wird das RAID5 auch nur noch als 6TB groß angezeigt.

Was ist das jetzt wieder schief gegangen?
Wie komme ich jetzt an meine Dateien?

Sind alles Urlaubs Filme und Fotos :(

quinte17
01.06.14, 10:33
es tut mir wirklich leid, aber wenn du kein backup hast wird es wohl schlecht um deine daten stehen.
man sollte keinem raid alleine seine daten anvertrauen. vor allem wenn man die ersten gehversuche mit raid macht...

Crys
04.06.14, 19:39
Schade eigendlich das von hier keine Hilfe kam, weiß immer noch nicht wie das passiert ist bzw. wie ich verhindern kann das das nochmal passiert, da ich nicht weiß was ich falsch gemacht habe.
Ich bin immer noch dabei Dateien zu suchen ...

nopes
04.06.14, 21:19
Also ein Fehler könnte sein: Wie so hast du einen rebuild gemacht, das steht so nicht in der Anleitung?
Ein weiterer, wieso ein resize, ein spare macht doch nichts größer, nur sicherer - ok ok bei dir wohl eher nicht...

Ansonsten gebe ich dir recht, deine Aktionen hätten nicht so enden sollen/dürfen, auch wenn sie nicht unbedingt sinnvoll waren. Den Raid erst zu kontrollieren war gut und die Meldung deutet auf keinen Fehler hin - probier auch mal ein
cat /proc/mdstat

Bleibt noch der Tipp mal dieses Wiki (https://raid.wiki.kernel.org/index.php/RAID_Recovery) zu lesen, auch wenn es nun vermutlich zu spät ist.

Crys
05.06.14, 17:36
Wie so hast du einen rebuild gemacht, das steht so nicht in der Anleitung?Wann habe ich das gemacht?

Ein weiterer, wieso ein resize, ein spare macht doch nichts größer, nur sicherer - ok ok bei dir wohl eher nicht...Ich habe das so verstanden, dass man ein Hotspare dem RAID hinzufügen muss und dann ein resize macht, damit das RAID und den Speicher der neuen Volumen erweitert wird und dieses nicht als Spare genutzt wird.


root@ChrisXu:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md1 : active raid5 sde1[4] sdf1[1] sdd1[3] sdg1[0]
8790389760 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/4] [UUUU]

md127 : active raid0 sdc1[0] sdb1[1]
2930266624 blocks super 1.2 512k chunksBeim RAID steht und stand jeder zeit [UUUU], also das alles ok ist ...

Und denn Link schau ich mir jetzt mal an. Danke so weit :)


Komisch finde ich diese Ausgabe:
root@ChrisXu:~# mdadm --detail /dev/md1
/dev/md1:
Version : 1.2
Creation Time : Wed May 28 13:12:28 2014
Raid Level : raid5
Array Size : 8790389760 (8383.17 GiB 9001.36 GB)
Used Dev Size : 2930129920 (2794.39 GiB 3000.45 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent

Update Time : Wed Jun 4 21:12:09 2014
State : clean
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 512K

Name : ChrisXu:1 (local to host ChrisXu)
UUID : c4236ee8:8d61ac08:65ddda03:efe37f21
Events : 6357

Number Major Minor RaidDevice State
0 8 97 0 active sync /dev/sdg1
1 8 81 1 active sync /dev/sdf1
3 8 49 2 active sync /dev/sdd1
4 8 65 3 active sync /dev/sde1Denn Used Dev Size ist auf 3TB, im FileManager werden aber nur 1TB belegt und 5TB frei angezeigt!?
Das heißt doch das 3TB belegt sind? Das könnten ja noch die Daten sein ... und wieso wird im FileManager nur 6TB Volumen angezeigt? :confused:

quinte17
05.06.14, 18:47
bei 9tb gesamtgröße fällt ein teil für die parität natürlich weg. was mich hier nur verwundert, dass es laut anzeige bei 4 festplatten 3 tb sein sollen.. eigentlich fällt bei raid5 der platz einer festplatte wegen der parität weg.


Schade eigendlich das von hier keine Hilfe kam, ...
Dies ist kein Livechat, sondern ein Forum in der die Meisten nur in ihrer Freizeit unterwegs sind. Für bezahlten Support kann man eine schnellere reaktionsrate erwarten, für kostenlosen muss man selbst vor allem mit Geduld bezahlen... (oder dann mit Datenverlust)


...
Bei mdadm --detail /dev/md127 kommt:
/dev/md127:
Version : 1.2
Creation Time : Wed May 28 13:12:28 2014
Raid Level : raid5
Array Size : 8790389760 (8383.17 GiB 9001.36 GB)
Used Dev Size : 2930129920 (2794.39 GiB 3000.45 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent

Update Time : Fri May 30 11:28:20 2014
State : clean
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 512K

Name : ChrisXu:1 (local to host ChrisXu)
UUID : c4236ee8:8d61ac08:65ddda03:efe37f21
Events : 6347

Number Major Minor RaidDevice State
0 8 97 0 active sync /dev/sdg1
1 8 81 1 active sync /dev/sdf1
3 8 49 2 active sync /dev/sdd1
4 8 65 3 active sync /dev/sde1
Also eig. alles in Ordnung!?


hier war der eventcount verdächtig hoch. warum dies aber so ist, ist die große preisfrage. normalerweise geht der nur hoch wenn man das raid verändert, oder etwas komisches passiert...


Ich habe jetzt mittels fsck.ext4 -f /dev/md127 die RAID-Partition überprüfen lassen und es kamen sehr viele Fehler (ca. 20.000) das Blöcke eine Falsche Summe haben, was ich alles mit ja reparieren lies....

und mit diesem repair wurde das dateisystem auf alle fälle beerdigt..

Crys
05.06.14, 19:00
bei 9tb gesamtgröße fällt ein teil für die parität natürlich weg. was mich hier nur verwundert, dass es laut anzeige bei 4 festplatten 3 tb sein sollen.. eigentlich fällt bei raid5 der platz einer festplatte wegen der parität weg.Genau das ist der Grund wieso ich das komisch finde und gepostet habe. Es sind 4HDDs, es werden 4 HDDs angezeigt. Deshalb würde ja die Größe unter Array Size stimmen mit 9TB, da 12TB minus 3TB (als spare). Und das Used Dev Size deute ich als belegten Speicher!? Nur wieso ist das im Filemanager nicht so?

quinte17
05.06.14, 19:10
was natürlich sein kann, dass der grow des raids noch nicht vollständig abgeschlossen war? dies ist aber nur eine vermutung.
es wäre empfehlenswert gewesen das ganze zuvor mal mit loopdevices durchzuspielen.
grundsätzlich gilt aber bei so rebuild problemen, die offizielle mailingliste zu befragen. die helfen da um einiges kompetenter. allerdings muss man hier auch viel geduld mit am start haben... ich hatte aber schon einmal dadurch meine daten retten können.. hier denke ich aber wird das leider nix mehr bringen...

used dev size ist nur ein hinweis auf die vom RAID benutzten daten da je nach raid-level eine gewisse menge an Daten für die parität aufgewendet werden muss.
die array size stimmt nicht, weil hier die gesamtgröße angezeigt werden sollte (12 TB) und nicht nur die 9TB.

Crys
05.06.14, 19:29
was natürlich sein kann, dass der grow des raids noch nicht vollständig abgeschlossen war? dies ist aber nur eine vermutung.Wenn der RAID Status aber auf clear ist, dann sollte doch eig. alles abgeschlossen sein!?


es wäre empfehlenswert gewesen das ganze zuvor mal mit loopdevices durchzuspielen.loopdevices? Das heißt?


grundsätzlich gilt aber bei so rebuild problemen, die offizielle mailingliste zu befragen. Das heißt? Was für Mailingliste?


used dev size ist nur ein hinweis auf die vom RAID benutzten daten da je nach raid-level eine gewisse menge an Daten für die parität aufgewendet werden muss.
die array size stimmt nicht, weil hier die gesamtgröße angezeigt werden sollte (12 TB) und nicht nur die 9TB.Das stimmt dann aber auch nicht, wenn jetzt gerade 700GB belegt sind, dann sollten ja höchstens 1,4TB auf dem gesamten RAID sein, inkl. Parität!?


Und das aller wichtigste:
Was kann ich jetzt noch versuchen?
Wie bekomme auch die vollen 9TB Volumen?
Wie verhindere ich, dass das wieder passiert?

quinte17
05.06.14, 19:51
Wenn der RAID Status aber auf clear ist, dann sollte doch eig. alles abgeschlossen sein!?
kommt auf den fehler drauf an. dir ist ja schon was komisch vorgekommen und anschließend hast du selbst rumprobiert. das kann zu allen möglichen fehlerbildern führen.



loopdevices? Das heißt?

hier (http://lmgtfy.com/?q=linux+loopdevice)



Das heißt? Was für Mailingliste?

hier (http://lmgtfy.com/?q=linux+raid+mailinglist)



Das stimmt dann aber auch nicht, wenn jetzt gerade 700GB belegt sind, dann sollten ja höchstens 1,4TB auf dem gesamten RAID sein, inkl. Parität!?


du verwechelst hier benutzten speicherplatz auf einem dateisystem mit benutzt für das raid wovon das dateisystem gar nichts weiß.

edit: versehentlich falsche information gelöscht. just4uk hat das besser dargestellt.



Und das aller wichtigste:
Was kann ich jetzt noch versuchen?
Wie bekomme auch die vollen 9TB Volumen?
Wie verhindere ich, dass das wieder passiert?

mit versuchen wird sich da nix mehr retten lassen. entweder du befragst die mailingliste und wartest noch ab oder du beerdigst deine daten für allemal und setzt das raid neu auf. jetzt kann bei der übung natürlich nix mehr verloren gehen...

wie man so einen fehler verhindert? mit geduld und ohne unüberlegtes handeln! vor allem aber mit backups. ein raid ist kein ersaz für backups. das lernt man immer erst wenn einem ein raid flöten geht...

just4uk
05.06.14, 20:01
Raid Level : raid5
Array Size : 8790389760 (8383.17 GiB 9001.36 GB)
Dürfte klar sein, 4x 3TB - 1x raid5 = 9TB oder 9001.36GB

Used Dev Size : 2930129920 (2794.39 GiB 3000.45 GB)
Benutzter Platz pro DISK! Nicht im Filesystem oder auf dem raid5 sondern "Used Device Size" benutzt auf /dev/sdd1 + /dev/sde1 + /dev/sdf1 + /dev/sdg1.

Gruß aus L.E.
Uwe

Crys
10.06.14, 18:01
Danke just4uk. So kann man das natürlich auch interpretieren und macht mehr Sinn :)

Aber wieso werden dann korrekt 9TB angezeigt, aber im FileManager nur 6TB?




wie man so einen fehler verhindert? mit geduld und ohne unüberlegtes handeln! vor allem aber mit backups. ein raid ist kein ersaz für backups. das lernt man immer erst wenn einem ein raid flöten geht...Sorry, aber das ist wieder ein super Kommentar. Nen was konkretes nicht nur solche "Weisheiten".

Was habe ich jetzt genau falsch gemacht? Kann mir immer noch niemand sagen ... wie also den Fehler in Zukunft vermeiden?

Und wo habe ich unüberlegt gehandelt? Ok, vielleicht mit dem fsck.ext4 -f, aber das kann man erstens nicht mit Gewissheit sagen und zweitens hätte dann vielleicht "jemand" genau das mit einem lmgtfy-Link gepostet.
(Sorry, vor den Links hab ich echt gedacht du kennst dich aus, aber das ist doch echt kindisch!?)

Wie hätte ich vorher die Daten sichern sollen? Das ist ein RAID über 9TB und ich konnte bis auf 3TB alles wo anders auslagern. Also noch mal 3TB HDD bestellen, nen Tag meine Daten auslagern, dann die HDD aus kulanz inerhalb der 14 Tage zurückschicken, weil ich die dann eh nicht mehr brauche? Naja, das hätte ich dann für zu Asozial gefunden ... wie hättest du das gemacht?
Das RAID war nie als Sicherung gedacht und sollte es auch nie sein ...

quinte17
10.06.14, 19:27
Das RAID war nie als Sicherung gedacht und sollte es auch nie sein ...
Dann ist es ja kein problem.