Festplattenwechsel bei einem Debian Raid 5 [Archiv] - linuxforen.de -- User helfen Usern

Kino-Micha

23.09.13, 16:18

Hallo,
da ich diese Frage in meinem alten Thread (http://www.linuxforen.de/forums/showthread.php?p=1806555#post1806555) gestellt habe, und man mir nahegelagt hat einen neues Thema zu eröffnen wird dias hiermit gemacht.

Nachdem unser Server knapp 2 Monate seinen Dienst verrichtet hatte sieht es nun so aus als ob eine HDD defekt ist (auto-detecting Sata 5).
Nach einer Weile bootet das System auch brav, aber nun stellt ich die Frage "Welche Platte ist SATA 5?" Ich dachte ich nehme eine Nach der anderen heraus und hänge sie mal an eien PC und lasse HD Tune mal drüber laufen. Würde das funktionieren?
Das System habe ich im übrigen wie folgt konfiguriert:
alle 5 Platten pationiert, 1x 20GB für Debian, 4GB Swap der Rest Daten,
dann habe ich die 5x20GB und die 5x4GB für einen Raid 1 zusammengefasst sowie den Rest (5x ca 976GB) in einen Raid 5.
Nun muss ich nach dem ich diese fehlerhafte Platte gefunden habe das ganze recovern. Dazu habe ich verschiedene Anleitungen gefunden die sich immer etwas unterscheiden. Wie komme ich am einfachsten nun an mein Ziel?
Welche Infos braucht ihr noch um mir zu helfen?

Gruß Micha

TomTobin

23.09.13, 18:41

Hallo Micha,

zu deiner konkreten Frage kann ich leider nichts sagen aber ich habe eine Frage zu deiner RAID Konfiguration:

Verstehe ich das richtig? Du hast auf 5 Platten jeweils drei verschiedene RAIDs komplett auf alle Platten verteilt? Soll heißen beim Ausfall einer einzigen Platte sind alle RAIDs betroffen!?

Gruß

Tom

Kino-Micha

23.09.13, 18:57

Hi Tom,
eigentlich schon (da ich nur 1TB-Platten zur verfügung hatte und ich den Speicherplatz auch brauche habe ich mich für diese Version entschieden-deshalb sollte das OS ja gesichert sein - Bringt ja auch nix wenn die HDD des Betriebsystems crasht)
also ich habe
Debian im Raid 1
Swap im Raid 1
Daten im Raid 5

dadurch kann das OS eigentlich bei fast jedem HDD-Crash starten. Nur dür die Daten habe ich den Raid 5 zwecks Speicherplatz.
Ist das so ungewöhnlich?

Gruß Micha

nopes

23.09.13, 19:24

Hi,

also zum einen kannst du mal über die Installation von dwww (http://packages.debian.org/de/wheezy/dwww) nachdenken, denn Debian liefert eigentlich alles notwendige an Doku mit und dieses Paket erlaubt es bequem darauf zu zugreifen (http://xyz/dwww - dran denken, Debian erlaubt per default nur localhost, ggf. /etc/dwww/apache.conf entsprechend anpassen). Vorteil ist natürlich, dass diese Doku zu deinem System passt.

Ansonsten würde ich mich hier (https://raid.wiki.kernel.org/index.php/Linux_Raid) nach richten, was steht also in /proc/mdstat (https://raid.wiki.kernel.org/index.php/Mdstat)?

quinte17

24.09.13, 15:49

über die festplattenseriennummer kann man die kaputte platte leicht identifizieren..

hdparm -i /dev/sdX | grep Serial

Kino-Micha

24.09.13, 17:06

Danke erst einmal für eure Antworten :) .
Als ich nun heute den Server einschaltete, bootete er ohne Probleme. Wie kann ich sicher sein das dieses Problem einmalig ist? Vielleicht mal den S.M.A.R.T. auslesen (http://www.debianroot.de/server/festplatten-mit-smart-ueberwachenueberpruefen-1236.html) ?
Das mit der Festplattenseriennummer werde ich auf jedenfall machen.

kreol

24.09.13, 20:54

mdadm bzw. die manpage dazu sollte einiges liefern. Falls die Raids damit gebaut sind...

Damit kannst Du die Platten auch einzeln aus dem Raid nehmen und anschliessend mit den üblichen Tools (Herstellertool, badblocks, smartctl etc.) prüfen.

Das setzt natürlich voraus, dass das Sys auch ohne das Raid läuft, was ungeschickterweise bei Dir wohl nicht unbedingt der Fall ist. Oder dass das Sys auch mal längere Zeit offline sein kann, um die Prüfungen vorzunehmen.

Wenn eine Platte tatsächlich defekt ist und Du eine funktionierende aus dem Raid rausnimmst ist das dahinter stehende Fileysytem potentiell tot. Mehr als ein Ausfall (von Platte/beteiligter Partition) ist bei Raid5 nicht drin, bei Raid1 lebt es bis zum Ausfall der letzten Platte/zugewiesener Partition (theoretisch) weiter. Oder einfacher: Ein Raid5 ist unbenutzbar, wenn eine Platte/beteiligte Partition defekt ist und Du eine weitere, nicht defekte entfernst, ein Raid1 kann/sollte sowas überleben.

Daher können vor der Extraktion die Angaben, die mdadm liefert, hilfreich sein. --scan z.B., oder --detail. Oder anderes, was die man zu mdadm halt so liefert...

Eins ist klar: Solange und soweit das/die Raid/s jetzt gerade wieder laufen ist ein Backup Pflicht. Und vor der Entnahme einer Partition/Platte gilt das auch. Backup am Besten, wenn r/o gemountet ist, was beim Sytem wieder schwer fällt. Bei physikalischem Zugriff auf den Rechner ist da eine Live evtl. hilfreich.

Was hier vllt. auch etwas Klarheit bringen könnte wäre z.B. "fdisk -l". Aber bevor Du die Platten durch alle möglichen Abfragen stresst, egal womit, würde ich wegsichern was geht.

Kreol

Kino-Micha

03.10.13, 17:40

Hallo,
bin nach längerer Zeit wieder dazu gekommen mich unserem kranken System zuzuwenden (macht nichts wenn er ein paar Tage offline ist da er nur zum sichern verwendet wird). Ich habe als erset nachgesehen was in der /proc/mdstat steht

server@server:~$ cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]

md2 : active raid5 sda5[1] sdd5[4] sdc5[3] sdb5[2]

3804956672 blocks super 1.2 level 5, 512k chunk, algorithm 2 [5/4] [_UUUU]

md1 : active raid1 sda2[1] sdd2[4] sdc2[3] sdb2[2]

19514240 blocks super 1.2 [5/4] [_UUUU]

md0 : active (auto-read-only) raid1 sde1[0] sdd1[4] sdc1[3] sdb1[2] sda1[1]

5854144 blocks super 1.2 [5/5] [UUUUU]

unused devices: <none>
server@server:~$

Aus irgendeinen Grund hat das

hdparm -i /dev/sdX | grep Serial

nicht funktioniert (kannte das Kommando nicht)

Wie ihr sicher gesehen habt, ist wirklich eine Festplatte defekt (mdadm hat bei mir keine Wirkung gezeigt).
Was nun?

Viele Grüße

Micha

just4uk

03.10.13, 18:42

Welche soll den deiner Meinung nach defekt sein?
Beim md1 und md2 fehlt zwar jeweils eine Partition aber das md0 ist komplett mit allen fünfen, also kann man/frau hier nicht unbedingt von einem (Hardware)Defekt reden.
Aber mal davon ab mir wäre diese Konstellation mit Softraid SEHR suspekt, unötig kompliziert und fehlerträchtig!
Wenn du die Möglichkeit hast nimm eine (kleinere) Disk als Systemplatte und die fünf als EIN Raid5 für Daten.
Oder besorg dir einen Raidcontroller (den P410 gibts je nach Verkehrslage schon für unter 100€) dann hast du deine Ruhe.

Gruß aus L.E.
Uwe

quinte17

04.10.13, 07:20

Hallo Micha,
in deinem Fall musst du natürlich folgendes ausführen:

hdparm -i /dev/sde | grep Serial

du solltest auch mit smart mal nachsehen wie es der platte so geht:

smartctl -a /dev/sde

kannst du hier posten.

anschließend muss man sich schrittweise überlegen wie man diese platte aus den noch verwendetem raid nimmt, austauscht und dann wieder so einrichtet, dass sie für alle raids verwendet werden kann.

ps: es kann sein dass sich die reihenfolge der festplatten ändert und dadurch der name sde nicht stimmt. hierzu bitte nochmal in /proc/mdstat nachsehen.

Kino-Micha

07.10.13, 19:02

Hallo quinte17,
Vielen Dank für deinen Ratschlag. Bin heute wieder mal dazu gekommen mich mit dem Teil zu beschäftigen. Dabei habe alle 5 Platten getestet - scheinen aber irgendwie alle OK zu sein. Mir ist nur aufgefallen das der Swap (MD0) alle 5 Platten hat, hingegen Debian (MD1) und Home (MD2) nur 4 von 5 startet. Das verstehe ich irgendwie nicht. Die platten wurden doch erst partioniert und dann mit den einzelnen Partitionen der (oder die) Raid(s) angelegt.
Hier nochmal was das Terminal mir auf deine Befehle gesagt hat:

server@server:~$ su
Passwort:
root@server:/home/server# hdparm -i /dev/sde | grep Serial
Model=Hitachi HDE721010SLA330, FwRev=ST6OA3AA, SerialNo=STN607MS25X73K
root@server:/home/server# hdparm -i /dev/sdd | grep Serial
Model=Hitachi HDE721010SLA330, FwRev=ST6OA3AA, SerialNo=STN607MS25AATK
root@server:/home/server# hdparm -i /dev/sdc | grep Serial
Model=Hitachi HDE721010SLA330, FwRev=ST6OA3AA, SerialNo=STN607MS24TJMK
root@server:/home/server# hdparm -i /dev/sdb | grep Serial
Model=Hitachi HDE721010SLA330, FwRev=ST6OA31B, SerialNo=STN603MH11YK9W
root@server:/home/server# hdparm -i /dev/sda | grep Serial
Model=Hitachi HDE721010SLA330, FwRev=ST6OA3AA, SerialNo=STR607MS2N5YRS
root@server:/home/server# smartctl -a /dev/sde
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model: Hitachi HDE721010SLA330
Serial Number: STN607MS25X73K
LU WWN Device Id: 5 000cca 35ededed5
Firmware Version: ST6OA3AA
User Capacity: 1.000.204.886.016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Mon Oct 7 19:34:36 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (14090) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 235) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 132 132 054 Pre-fail Offline - 112
3 Spin_Up_Time 0x0007 119 119 024 Pre-fail Always - 482 (Average 479)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 1181
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 125 125 020 Pre-fail Offline - 33
9 Power_On_Hours 0x0012 099 099 000 Old_age Always - 8591
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1181
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 1183
193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 1183
194 Temperature_Celsius 0x0002 200 200 000 Old_age Always - 30 (Min/Max 17/44)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 1

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@server:/home/server# smartctl -a /dev/sdd
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model: Hitachi HDE721010SLA330
Serial Number: STN607MS25AATK
LU WWN Device Id: 5 000cca 35ede9bb5
Firmware Version: ST6OA3AA
User Capacity: 1.000.204.886.016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Mon Oct 7 19:34:55 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (14090) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 235) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 132 132 054 Pre-fail Offline - 113
3 Spin_Up_Time 0x0007 117 117 024 Pre-fail Always - 488 (Average 488)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 1180
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 4
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 123 123 020 Pre-fail Offline - 34
9 Power_On_Hours 0x0012 099 099 000 Old_age Always - 8570
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1180
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 1182
193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 1182
194 Temperature_Celsius 0x0002 206 206 000 Old_age Always - 29 (Min/Max 17/46)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 7
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 4

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@server:/home/server# smartctl -a /dev/sdc
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model: Hitachi HDE721010SLA330
Serial Number: STN607MS24TJMK
LU WWN Device Id: 5 000cca 35ede5c99
Firmware Version: ST6OA3AA
User Capacity: 1.000.204.886.016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Mon Oct 7 19:35:05 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (14090) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 235) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 132 132 054 Pre-fail Offline - 112
3 Spin_Up_Time 0x0007 119 119 024 Pre-fail Always - 479 (Average 481)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 1175
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 1
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 123 123 020 Pre-fail Offline - 34
9 Power_On_Hours 0x0012 099 099 000 Old_age Always - 8506
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1175
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 1176
193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 1176
194 Temperature_Celsius 0x0002 206 206 000 Old_age Always - 29 (Min/Max 17/44)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 1
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 2

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@server:/home/server# smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model: Hitachi HDE721010SLA330
Serial Number: STN603MH11YK9W
LU WWN Device Id: 5 000cca 349cefad5
Firmware Version: ST6OA31B
User Capacity: 1.000.204.886.016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Mon Oct 7 19:35:11 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (14090) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 235) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 131 131 054 Pre-fail Offline - 118
3 Spin_Up_Time 0x0007 119 119 024 Pre-fail Always - 483 (Average 480)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 1073
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 125 125 020 Pre-fail Offline - 33
9 Power_On_Hours 0x0012 099 099 000 Old_age Always - 9785
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1073
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 1074
193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 1074
194 Temperature_Celsius 0x0002 206 206 000 Old_age Always - 29 (Min/Max 19/47)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 2

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@server:/home/server# smartctl -a /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model: Hitachi HDE721010SLA330
Serial Number: STR607MS2N5YRS
LU WWN Device Id: 5 000cca 35ee55ccc
Firmware Version: ST6OA3AA
User Capacity: 1.000.204.886.016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Mon Oct 7 19:35:18 2013 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x80) Offline data collection activity
was never started.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (14090) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 235) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 131 131 054 Pre-fail Offline - 116
3 Spin_Up_Time 0x0007 116 116 024 Pre-fail Always - 492 (Average 492)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 1215
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 1
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 123 123 020 Pre-fail Offline - 34
9 Power_On_Hours 0x0012 099 099 000 Old_age Always - 9314
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1215
192 Power-Off_Retract_Count 0x0032 099 099 000 Old_age Always - 1223
193 Load_Cycle_Count 0x0012 099 099 000 Old_age Always - 1223
194 Temperature_Celsius 0x0002 200 200 000 Old_age Always - 30 (Min/Max 17/51)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 1
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@server:/home/server# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md2 : active raid5 sdb5[1] sde5[4] sdd5[3] sdc5[2]
3804956672 blocks super 1.2 level 5, 512k chunk, algorithm 2 [5/4] [_UUUU]

md1 : active raid1 sdb2[1] sde2[4] sdd2[3] sdc2[2]
19514240 blocks super 1.2 [5/4] [_UUUU]

md0 : active (auto-read-only) raid1 sda1[0] sde1[4] sdd1[3] sdc1[2] sdb1[1]
5854144 blocks super 1.2 [5/5] [UUUUU]

unused devices: <none>
root@server:/home/server#

Vielleicht wirst du etwas schlau daraus:rolleyes:

Viele Grüße

Micha

quinte17

07.10.13, 20:47

also deine festplatten haben wohl ein gemischtes bild.
die scheinbar schlechtere sde hat zumindest noch keine defekten sektoren. andere aber allerdings schon, wie die sdd. dies erkennt man an dem wert vom reallocated sector count. wenn der größer 0 ist, werden diese platten schlechter.
desweiteren fällt auf dass auch ein paar UDMA_CRC_Errors bei den meisten platten vorhanden ist. dies kann ein lockeres kabel sein, oder natürlich acuh einfach ein stromausfall.. ein altes lockeres kabel hatte ich schonmal. das war sehr nervig. hier war der kunststoff des steckers schon so alt, dass der einfach brach und anschließend nur noch mit einem wackelkontakt kontaktierte...

was du machen könntest.
kabel überprüfen ob die auch noch sauber drin sind. sde wieder zu deinen raids hinzufügen. zumindest schonmal eine weitere platte kaufen und diese als spare einsetzen. die platten mit schon ersetzten sektoren werden über kurz oder lang den geist aufgeben.
regelmäßig sichern nicht vergessen, denn es kann immer sein dass auch mal 2 platten kurz nacheinander ausfallen. dann hilft ein raid5 bekanntlich nix.

zusätzlich kann man auch überlegen die platten mit den schon ersetzten sektoren der reihe nach auszutauschen. dies wäre wohl die zu empfehlende strategie.

wenn du ein backup der daten hast kannst du auch die smarttests mal anstoßen. dauern z.t. relativ lange. können auch raid-fehler auslösen, das bei den langen tests auch defekte sektoren gesucht werden.

smartctl --test=long /dev/sdX # X wieder mit einem buchstaben ersetzen..

Kino-Micha

10.10.13, 17:48

sde hatte ich doch aber gar nicht ausgehangen ?-o
Alle verbauten Kabel sind neu - daran sollte es nicht liegen.

Kino-Micha

22.10.13, 17:26

Nun hat sich scheinbar eine Festplatte endgültig vom Acker gemacht. Ich wede nachher noch mal ein anderes SATA- Kabel testen, aber ich glaube nicht das es daran liegt:

server@server:~$ su
Passwort:
root@server:/home/server# mdadm --detail /dev/md0
/dev/md0:
Version : 1.2
Creation Time : Sun Jul 14 16:21:33 2013
Raid Level : raid1
Array Size : 5854144 (5.58 GiB 5.99 GB)
Used Dev Size : 5854144 (5.58 GiB 5.99 GB)
Raid Devices : 5
Total Devices : 4
Persistence : Superblock is persistent

Update Time : Tue Oct 22 14:29:32 2013
State : clean, degraded
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0

Name : server:0 (local to host server)
UUID : 0ab165a8:a359e49c:4dcd578c:f80d09f5
Events : 20

Number Major Minor RaidDevice State
0 0 0 0 removed
1 8 1 1 active sync /dev/sda1
2 8 17 2 active sync /dev/sdb1
3 8 33 3 active sync /dev/sdc1
4 8 49 4 active sync /dev/sdd1
root@server:/home/server# mdadm --detail /dev/md1
/dev/md1:
Version : 1.2
Creation Time : Sun Jul 14 16:21:55 2013
Raid Level : raid1
Array Size : 19514240 (18.61 GiB 19.98 GB)
Used Dev Size : 19514240 (18.61 GiB 19.98 GB)
Raid Devices : 5
Total Devices : 4
Persistence : Superblock is persistent

Update Time : Tue Oct 22 17:24:42 2013
State : clean, degraded
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0

Name : server:1 (local to host server)
UUID : eb9d8068:6d21d43d:ae1f838e:e8ba587f
Events : 8552

Number Major Minor RaidDevice State
0 0 0 0 removed
1 8 2 1 active sync /dev/sda2
2 8 18 2 active sync /dev/sdb2
3 8 34 3 active sync /dev/sdc2
4 8 50 4 active sync /dev/sdd2
root@server:/home/server# mdadm --detail /dev/md2
/dev/md2:
Version : 1.2
Creation Time : Sun Jul 14 16:22:14 2013
Raid Level : raid5
Array Size : 3804956672 (3628.69 GiB 3896.28 GB)
Used Dev Size : 951239168 (907.17 GiB 974.07 GB)
Raid Devices : 5
Total Devices : 4
Persistence : Superblock is persistent

Update Time : Tue Oct 22 17:22:47 2013
State : clean, degraded
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 512K

Name : server:2 (local to host server)
UUID : 60bccd9e:2ee01577:b039b869:bdeae459
Events : 9185

Number Major Minor RaidDevice State
0 0 0 0 removed
1 8 5 1 active sync /dev/sda5
2 8 21 2 active sync /dev/sdb5
3 8 37 3 active sync /dev/sdc5
4 8 53 4 active sync /dev/sdd5
root@server:/home/server#

sde war als einzigste vom Terminal nicht zu erreichen als ich die Seriennummern checken wollte - also gehe ich davon aus das sde (in meinen vorhergehenden Beitrag sda) nun wirklich defekt ist.
Nun habe ich mir eine Prozedur zum Wechsel zusammengestellt - will aber erst eure Meinung wissen - nicht das ich nachher mehr Arbeit habe als vorher:

1. aushängen

mdadm /dev/md0 --remove /dev/sde1
mdadm /dev/md1 --remove /dev/sde2
mdadm /dev/md2 --remove /dev/sde5

2.Server herunterfahren und HDD wechseln

3.Formatiern - hier bin ich mir nicht sicher ob das so richtig ist (hier klone ich einfach nur die Partitionstabelle)

sfdisk -d /dev/sda | sfdisk /dev/sde

4. Verbund Starten mit

mdadm --assemble --run /dev/md0
mdadm --assemble --run /dev/md1
mdadm --assemble --run /dev/md2

5.Neue Festplatte einbinden mit

mdadm --assemble --run /dev/md0
mdadm --assemble --run /dev/md1
mdadm --assemble --run /dev/md2

6.Grub installieren oder MBR klonen? Ich versuche auch hier den MBR zu konen. Zuerst also sichern mit:

dd if=/dev/sda of=./mbrbackup.img bs=512 count=1

7. Zurücksichern mit:

dd if=/mbrbackup.img of=/dev/sdb bs=446 count=1

Danach sollte doch alles wieder laufen.
Oder habe ich hier Mist gebaut????

Viele Grüße

Micha

ps. ich hoffe das es richtig ist sde anzunehmen und nicht sda (weil diese HDD zuvor als sda geführt wurde)

quinte17

22.10.13, 18:04

3. ist ok.
5. ist nicht ganz richtig, hier meinst wohl eher einen add.
6. besser grub installieren. nicht klonen.

Kino-Micha

22.10.13, 18:24

Hattest recht - war wohl ein Scheibfehler. Richtig so:

mdadm /dev/md0 --manage --add /dev/sde1
mdadm /dev/md1 --manage --add /dev/sde2
mdadm /dev/md2 --manage --add /dev/sde5

Ich habe schon mal gesucht wie ich den Grub am besten installieren könnte aber irgendwie bisher nichts detailiertes gefunden. Wie müsste ich hier vorgehen? Wie du gesehen hast habe ich ja 3 Raid's da am laufen: MD0= Raid 1 =Swap, MD1= Raid1=Debian, MD2=Raid5=Daten.

Micha

nopes

22.10.13, 18:42

siehe hier (https://wiki.debian.org/GrubRecover), also:
grub-install /dev/sde

[EDIT]Bei Ubuntu (bin mir gerade nicht mehr sicher, ob du Debian, oder *buntu nutzt)dürfte auch das gehen:
grub-setup /dev/sdeSiehe hier (http://wiki.ubuntuusers.de/GRUB_2/Reparatur).

Kino-Micha

22.10.13, 18:58

Es war Debian

Kino-Micha

22.10.13, 19:01

Wäre das mit einem Live System besser zu machen oder direkt mit dem System?

nopes

22.10.13, 22:41

Naja ist ja nur ein Backup, also ich sehe keinen Grund das nicht direkt zu tun. Die Anleitung muss ja darauf Rücksicht nehmen, dass das Gro wohl keinen Raid hat, also das System nicht starten kann bzw. könnte, wenn das fällig wird. Insofern, Glückwunsch deine Strategie hat funktioniert :)

Kino-Micha

15.11.13, 18:33

Hallo,
nun hatte ich endlich die Zeit gefunden den Wechsel vorzunehmen, aaaber...
Ich bekomme nun keinen Zugriff mehr auf das Laufwerk (kann die Seriennummer nicht auslesen - weis zwar welche es ist, aber auf diese weise weiß ich ob das Dev noch mit mir spricht). Folglicherweise kann ich es nun auch nicht aushängen. Ich hatte es schon einmal abgestöpselt und eine neue daran gehangen - da startete das System aber nicht (zeigte immer noch "Autodetected SATA5" an = Port defekt? Kabel hatte ich schon gewechselt. Also die kaputte wieder angeschlossen und gebootet. Wie kriege ich nun eine HDD zum aushängen auf die ich nicht mehr zugreifen kann??
Wenn ich in die Bootreihenfolge gehe (nicht in das direkte Bios) werden aber alle Festplatten angezeigt. Wie kann es sein das hier das Bios das Gerät erkennt und das Terminal nicht?
Muss ich etwa das komplette System neu aufsetzten?? Das ärgerliche ist ja das vor 2 Tagen das Gerät noch online war :mad:

Viele Grüße

Micha

Kino-Micha

22.02.14, 16:01

Nachdem ich nun im November das System neu aufgesetzt hatte, habe ich heute schon wieder eine Fehlermeldung erhalten. Ich kome zwar mit "STRG + D" weiter , kann mich aber nur als Root anmelden und nicht als Benutzer! Dazu kommt auch noch das die Raid-Partition mit meinen Daten Komplett weg ist, ich also nur zugriff auf die OS-Partition habe. (Os-Partition war 5x20GB Raid1, Daten war 5x985 GB Raid5. Da ich hier leider keinen Screenshot machen kann schicke ich euch mal ein Foto.

Viele Grüße

Micha