PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Restore Performance



jogep
13.05.08, 17:50
Hallo,

auf einem Server mit einem Raid5 + LVM mache mich gerade ein Datenbank Restore von ca. 1,5 TB.

Am Anfang läuft der Restore noch mit ca. 20 GB/h aber das wird mit der Zeit immer langsamer, und inzwischen ist die Geschwindigkeit auf 7 GB/h eingebrochen.

Ihr könnt euch natürlich vorstellen wie lange das ganze dann braucht bei 1,5 TB.

Meine Frage ist, liegt das nur an der Kombination Raid5/LVM oder gibt es dafür noch andere Erklärungen? Ich meine ca. 2MB/s schreibend ist doch wirklich nicht viel für SCSI Platten oder? Ich dachte die schaffen irgendwas von 50MB/s oder sogar mehr.

Mit der Zeit ist auch der Swap zugelaufen, ich denke Linux probiert das als File Cache zu nutzen.



dbserver1:~ # cat /proc/meminfo
MemTotal: 37043920 kB
MemFree: 34604 kB
Buffers: 54268 kB
Cached: 23219220 kB
SwapCached: 5572 kB
Active: 4541316 kB
Inactive: 22450020 kB
HighTotal: 0 kB
HighFree: 0 kB
LowTotal: 37043920 kB
LowFree: 34604 kB
SwapTotal: 2097096 kB
SwapFree: 0 kB
Dirty: 872 kB
Writeback: 956 kB
Mapped: 3750384 kB
Slab: 536924 kB
Committed_AS: 17416000 kB
PageTables: 14436 kB
VmallocTotal: 536870911 kB
VmallocUsed: 34804 kB
VmallocChunk: 536836103 kB
HugePages_Total: 0
HugePages_Free: 0
Hugepagesize: 2048 kB


Hat jemand eine Idee woran es noch liegen könnte? Ist das Normal?

Schon mal Danke im Vorraus
jogep

Seblxuser
13.05.08, 23:22
Ich bin jetzt nicht der Experte für Raid, aber welchen Controller benutzt du? Wie viel Arbeitsspeicher ist in der Kiste verbaut? Läuft da vieleicht irgendwas im debug modus?

jogep
14.05.08, 09:44
Also Speicher hat die Kiste eigentlich genug, sieht man ja an dem meminfo ca. 36 GB.

lspci sagt mir das das folgender RAID Controller ist:

RAID bus controller: Hewlett-Packard Company Hewlett-Packard Smart Array Controller

Allerdings ist der Ram und der SWAP im Moment zu 99,9 % ausgelastet, womit weiß ich allerdings nicht so genau, wahrscheinlich nutzt er das als Cache für den Restore.

heatwalker
14.05.08, 10:02
Von welchem Medium machst du denn den Restore?

jogep
14.05.08, 10:05
Das Restore kommt von unserer Backup Lösung, die kann aber nicht der Flaschenhals sein, da das bei Ähnlichen Systemen die aber keine internen Platten nutzen sondern über SAN angebunden sind das ganze Restore in wenigen Stunden schaffen. Deswegen muß es an diesem speziellen Server liegen.

heatwalker
14.05.08, 10:21
Raid 5 ist an sich schon nicht das schnellste bei Schreiboperationen.

Ich vermute mal das die Einstellungen im Controller anders gesetzt werden
müssten.
Vermutlich stehen die performance technisch auf Leseoperationen. Was bei einer Datenbank ja grundsätzlich Sinn macht. (-:

jogep
14.05.08, 11:10
Raid 5 ist an sich schon nicht das schnellste bei Schreiboperationen.


Das schon aber so langsam? Das ganze läuft jetzt schon 5 Tage.
2MB/s da ist ja mein alter USB-Stick schneller. :-)

heatwalker
14.05.08, 11:19
Das ist sehr langsam. Aber wie gesagt, ich vermute das die Performance Einstellungen im Kontroller für den Restore nicht richtig gesetzt sind.

Überprüf das mal.

Ich würde mir auch mal die HP Managementeinstellungen (Wenn alle Agents installiert sind) anschauen.
Vielleicht hat ja eine der HDs ein Problem.

Aber ohne genau Infos zur kompletten Hardware ist es schwer da
genaue Aussagen zu treffen.

jogep
14.05.08, 14:43
Das ist sehr langsam. Aber wie gesagt, ich vermute das die Performance Einstellungen im Kontroller für den Restore nicht richtig gesetzt sind.

Überprüf das mal.

Kann man das überprüfen während das Restore läuft?



Ich würde mir auch mal die HP Managementeinstellungen (Wenn alle Agents installiert sind) anschauen.
Vielleicht hat ja eine der HDs ein Problem.

Laut den Admins ist mit den Platten alles i.O.


Aber ohne genau Infos zur kompletten Hardware ist es schwer da
genaue Aussagen zu treffen.
Was für Infos brauchst du? Cpu? Chip? Mem?

Was ich mich frage wiso so ein hoher Performance Verlust zustande kommt.
Eine Normale SCSI Platte denke ich hat ca. 100MB/s Schreibgeschwindigkeit. Wenn ich jetzt sage das durch das Raid5 50% Verlust sind wäre ich bei 50MB/s. Wenn man für das LVM auch noch 50% dazurechnet bin ich bei 25 MB/s. Das wären aber immer noch 10 mal schneller als wie es jetzt läuft.

Gibt es irgendwelche Kernel Parameter an denn man schrauben kann?

heatwalker
14.05.08, 15:00
Kann man das überprüfen während das Restore läuft?

Das geht über die Management Homepage. Voraussetzung ist natürlich das die HP Tools und Agents installiert sind.


Was für Infos brauchst du? Cpu? Chip? Mem?
Servermodell, Raidcontroller und welche Festplatten und wieviel davon.

Aber ich gehe schwer davon aus das es an den Einstellungen liegt.


Was ich mich frage wiso so ein hoher Performance Verlust zustande kommt.
Eine Normale SCSI Platte denke ich hat ca. 100MB/s Schreibgeschwindigkeit. Wenn ich jetzt sage das durch das Raid5 50% Verlust sind wäre ich bei 50MB/s. Wenn man für das LVM auch noch 50% dazurechnet bin ich bei 25 MB/s. Das wären aber immer noch 10 mal schneller als wie es jetzt läuft.

Das mit den 100 MB/s ist ein Märchen. (-: Solche Werte erreichst du nicht
mit einer Festplatte.

Vielleicht liegt es ja gar nicht an den Platten. Hast du das Netzwerk schon mal überprüft? Eventuell ist hier irgendwo der Flaschenhals. Oder hängt der Server auch am SAN?

jogep
14.05.08, 15:23
Das geht über die Management Homepage. Voraussetzung ist natürlich das die HP Tools und Agents installiert sind.

Muss ich mal nachfragen, darauf habe ich leider keinen zugriff.



Servermodell, Raidcontroller und welche Festplatten und wieviel davon.

Ein HP Server die Modell Nummer habe ich leider nicht im Kopf.
Raidcontroller:
Hewlett-Packard Company RAID bus controller│

Platten:
8 mal 146GB SAS an 2 RAID Controllern




Das mit den 100 MB/s ist ein Märchen. (-: Solche Werte erreichst du nicht
mit einer Festplatte.

Naja eine Platte ist es nicht sonst wäre es ja schwer mit den 1,5 TB.



Vielleicht liegt es ja gar nicht an den Platten. Hast du das Netzwerk schon mal überprüft? Eventuell ist hier irgendwo der Flaschenhals. Oder hängt der Server auch am SAN?
Am SAN ist das Ding nicht angeschlossen und am Netzwerk sollte es auch nicht liegen. Ich habe mal ein tmpfs angelegt und dann übers Netzwerk kopiert. Das ging super schnell.

temir
15.05.08, 08:20
Vor allem ist der Memory-Verbrauch seltsam... als wenn der BA-Client einen Speicher-Leck hätte.
Und wenn die Kiste permanent am swappen ist - wird es kaum schneller laufen.

Hat der BA-Client vielleicht Recovery-Optionen einstellbar, etwa wie: Speicher-Verbrauch, wie 'aggressiv' alloziert wird (und sowas in der Richtung)?

- Wenn es bei den anderen Machinen viel schneller läuft, dann vergleiche halt die BA-Client Configs.