PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Nur noch Ping tut



Buck76
23.02.03, 10:17
Hallo,
schon zum zweiten Mal in dieser Woche steht unser Webserver um ca. 5 Uhr morgens hin. Ausser den pings rührt sich nichts mehr. Die SSH Console baut sich zwar noch auf, aber das Login erscheint nicht. In den Log´s stellte ich beim letzten Mal auch nix besonderes fest. Was könnte das sein? Plattenfehler? Hacker? Ich muss dazu sagen, dass in dem Server 2*40 GB IDE Platten an einem RAID Controller (Promise FastTrak100 TX2) hängen.

Gruss Thomas

geronet
23.02.03, 10:39
Log-Dateien in /var/ voll?

Prüf mal mit df -h

Grüsse, Stefan

Buck76
23.02.03, 11:59
Hallo,

Platte ist fast leer ;)

/dev/hde2 37G 14G 22G 38% /
shmfs 250M 0 250M 0% /dev/shm


Gruss Thomas

Berufspenner
23.02.03, 12:43
Hi@all

Guck dir mal diesen Thread an: http://www.linuxforen.de/forums/showthread.php?s=&threadid=67555

Cu
André

Buck76
24.02.03, 08:24
Hallo,
ist leider kein 8.1, sondern 7.3... Die Hardware lief ja schon länger problemlos, das fing erst vor einigen Wochen an. In der letzten Woche gab es 2 "Abstürze" und eine Woche davor nur einen.

Gruss Thomas

netzmeister
24.02.03, 08:59
Hallo Thomas,

welcher Rechner ist es denn?

Viele Grüße

Eicke

Buck76
24.02.03, 09:04
Hallo,
unser Webserver.

Gruss Thomas

netzmeister
24.02.03, 09:13
Hallo Thomas,

die Promise Teile haben sich nicht bewährt. Erst Recht nicht im Dauereinsatz.
Nur Probleme. Sonst nichts.

Viele Grüße

Eicke

clumsy
24.02.03, 09:25
wenn's immer so um 5 Uhr passiert, schau mal in deine Crontab ob du da irgendein dienst stoppst oder ähnliches.....

Buck76
24.02.03, 10:37
Das Problem ist nur, dass der Controller vor dieser "Serie" nahezu 3 Monate am Stück problemlos lief...

@clumsy
Nein, gegen 5 passiert nahezu nix



00 05 * * * /usr/sbin/netdate -v ntps1-0.cs.tu-berlin.de
00 06 * * * /sbin/hwclock -wu
30 23 * * * /root/webalizer.sh
00 04 * * * /root/back_daily.sh

40 * * * * /var/vpopmail/bin/clearopensmtp 2>&1 > /dev/null

5 0 * * * /usr/local/isoqlog/isoqlog-rotate.sh

20 0 * * * /root/isoqlog.sh

00 22 09 08 * /root/spiegeln.sh
03 23 22 07 * /root/logrot


*/5 * * * * lynx http://www.blaba.de/bla.php >>/home/bla/serverlog/cronlog
~



Ausser eben die tägliche Sicherung, die um 4 startet. Vielleicht kommentier ich die mal für n paar Tage aus..

bp6rz
07.03.03, 11:54
@netzmeister

Ich habe einen Promise FastTrak100 verbaut, könnte aber mit vertretbarem Aufwand noch wechseln. Ist warscheinlich besser als später Probleme zu kriegen od. gar Datenverlust.
Und darum interessiert mich:
warum nicht Promise?
was ist die Alternative zu nem Promise-Mirror und warum?

Der Kontroller läuft bei mir unter RH7.3 mit Promise-Treibern im Raid1(Mirror) mit 2x Samsung 120 GB . hdparm -t zeigt ca. 37 MB/sec, was in Ordnung ist, aber hdparm -t zeigt nur die Lesegeschwindigkeit oder? Wie kann ich den Schreibdurchsatz messen? Kann ja sein, daß er beim Mirroring wunderbar lesen kann, aber das Schreiben auf 2 Platten zeitgleich Probs verursacht.

Unter Windows läuft das Ding ohne Probleme, bei mir jedenfalls. Und Linux nutzen doch garantiert viele denen Platten-Performance zu günstigen Preisen (RAID0/10 mit IDE-Platten) wichtig ist.
Oder auch viele mit ner Win/Linux-Kombination auf Platte und nen MB mit Onboard-RAID.
Oder Leute, wie ich, mit nem RAID1, die die Daten ohne großen Aufwand sicher aber performant und kostengünstig halten wollen. Und der Kontroller ist fast 3 Jahre alt.
Ich glaube einfach nicht, daß diese Hardware/BS-Kombi nicht laufen soll, nur wo ist die Lösung?
Ich brauch nen File-Server für privat und dafür kommt für mich aller erstens Linux/Samba in Frage, niemals nich Windows!!

netzmeister
07.03.03, 12:17
Hallo bp6rz,

wiel der Promise ein ganz normaler IDE-Kontroller ist.
Zudem ist deren Linux Support nicht besonders.

Wir haben das hier schon so oft durchgekaut.
Daher erspare ich mir weitere Kommentare.

Schaue einfach mal in die Suche zu diesem Kontroller.

Viele Grüße

Eicke

bp6rz
07.03.03, 13:38
Hallo netzmeister,

ich habe nach promise gesucht und 284 Beiträge gefunden. Bin jetzt schon seit 3 Tagen auf der suche nach ner Lösung für mein Problem, u.a. in genau diesen Beiträgen. Zum einen ist nicht jeder, der was zu diesem Thema schreibt, sorry, auch kompetent. Zum anderen ist es wirklich sehr mühselig alle Beiträge durchzulesen und abzuwägen, welche jetzt näher an der 'Wahrheit' dran sind. Von daher wäre Dir sehr dankbar, wenn Du mir trotzdem was dazu schreiben könntest, oder einen Link auf einen Thread in dem alles gesagt wird.

Danke
Sven

netzmeister
07.03.03, 17:35
Hallo,

die grosse Anzahl der Beiträge spricht für sich.
Nur Probleme mit diesen Teilen.

Mehr erspare ich mir. Glaube es mir einfach.

Viele Grüße

Eicke

Buck76
09.03.03, 20:01
Hallo,
nun haben wir sämtliche Scripts "ausgeschaltet". Vor allem waren da div. Backup Scripte am Laufen. Doch gestern und vorgestern ist der Server wieder nachts einfach stehen geblieben.

Was mir aufgefallen ist: Nachdem ich einige Mail Verzeichnisse kopieren wollte, hat das ewig gedauert und die Dateien wurden nur sehr langsam nach und nach kopiert.

Kann es sein, das eine der Platten ne Macke hat? Kann sich ein Fehler im Filesystem eingeschlichen haben?

Ist es normal, dass der RAID Controller bei RAID 1 nur auf der 1. Platte bei Schriebzugriff schreibt und die 2. Platte nicht??? Das LED der 1. Platte flackert immer, das der 2. nur beim Inititieren durch das Bios.

Wo ist der Fehler am wahrscheinlichsten zu suchen??

Gruss.

bp6rz
10.03.03, 08:13
verdammt,
ich hatte auch Probleme. ich konnte auf meinen Server Redhat7.3 (siehe Signatur) mit Promise-Treibern zwar zugreifen, aber Zugriffe auf selbigen übers Netz haben ewig gedauert (webmin, ssh samba-shares). Allerdings Dateioperationen lokal waren nicht merkbar langsam. hdparm -t /dev/sda brachte auch 37 MB/sec.
Dann habe ich hier im Forum gesucht und aufgrund der vielen Pobleme mit den Promisecontrollern, eben diesen in Verdacht gehabt.
Deshalb habe ich das Ding dann rausgenommen, die Platten an den onboard-IDE angeschlossen und RedHat 8.0 installiert.
Mit fast jungfräulicher Installation traten die selben Probleme auf.
Also jetzt hatte ich die Firewall auf meinem SuSE-Router (ich hatte schon mal Probleme mit dem netbios-Broadcast, erklärt aber nicht die webmin Probleme) unter Verdacht, negativ alles i.o.
Jetzt habe ich sämtliche von mir nicht benutzten Dienste auf dem Problemserver deaktiviert und dummerweise parallel dazu im BIOS des Motherboards den IDE-Busmaster-Modus aktiviert und es läuft super.
Jetzt weiß ich allerdingst nicht ob's wirklich an der Busmaster-Einstellung lag.
Habe jetzt erstmal wenig Zeit, das zu testen, weil ich durch die Geschichte ein paar Tage verloren habe.

@Thomas
Keine Ahnung ob's Dir hilft (warscheinlich eher nicht) aber 'n Versuch ist's wert.

Buck76
10.03.03, 08:27
Hi,
habe ich das jetzt richtig verstanden?

- IDE Controller (Board) aktiviert
- Nicht benutzte Dienste deaktiviern (hab ich keine)

--> funktioniert?

Also ich streich jetzt mal den RAID Controller ersatzlos raus und versuche es ohne RAID ein Weilchen. Vielleicht ist der Promise wirklich das Übel...

Gruss Thomas

Buck76
10.03.03, 09:04
Hallo,

hier ein Auszug aus /var/log/messages:



Mar 9 04:00:00 albwww /USR/SBIN/CRON[17479]: (root) CMD (su -c "/usr/local/share/sqwebmail/cleancache.pl" bin)
Mar 9 04:00:00 albwww su: (to bin) root on none
Mar 9 04:00:00 albwww PAM-unix2[17479]: session started for user bin, service su
Mar 9 04:00:00 albwww /USR/SBIN/CRON[17482]: (root) CMD (lynx http://www.abc.de/clock/AuctionCheck.php >>/home/
clock/serverlog/cronlog)
Mar 9 04:00:00 albwww /USR/SBIN/CRON[17484]: (root) CMD (/usr/local/bin/envdir /etc/relay-ctrl /usr/local/bin/relay-ctrl-age)

Mar 9 04:00:00 albwww PAM-unix2[17479]: session finished for user bin, service su
Mar 9 04:00:00 albwww /USR/SBIN/CRON[17487]: (root) CMD (/root/back_daily.sh)
Mar 9 14:19:04 albwww syslogd 1.4.1: restart.




Vor allem der Aufruf des back_daily.sh Scriptes ist auffällig. Es ruft diese Scripts auf:



/root/back_home.sh
/root/back_mail.sh
/root/back_mysql.sh


Das back_home.sh beispielsweise sieht so aus:



cd /home
for dir in *; do
if [ -d $dir ]; then
tar czf /backup/home/$dir.tgz $dir &&\
echo "...Homepage $dir wurde gesichert" ||\
echo "...Homepage $dir konnte nicht gesichert werden!"
fi
done


So und nun führe ich dieses Script gerade manuell aus, um zu sehen, wo sich der Server dann aufhängt. Es müsste aber direkt um 4 sein (d.h. am Anfang des Scriptes während der Sicherung der Home-Verzeichnisse) ... Das läuft nun schon aber seid 10 Minuten sauber durch...

Gruss Thomas

bp6rz
10.03.03, 09:42
@Thomas

ne, lass den Promise mal drin, sieh mal im Bios des Motherboards nach, ob IDE-Busmaster aktiviert ist, wenn nicht aktivier den mal und teste.

Ich hab mich noch nicht damit beschäftigt, was der IDE-Busmaster macht. Ich könnte mit vorstellen, daß der IDE-Kontroller den PCI-Bus ohne den aktivierten PCI-IDE-Busmaster zu stark beansprucht.

Ich denke, daß Du es mal probieren solltest, bevor Du den Promise ausbaust.

bp6rz
10.03.03, 09:48
Stop, habe gerade rebootet und wieder dasselbe Problem.

Buck76
10.03.03, 10:53
Hi,

seltsam:
Als ich heute morgen dieses backup_daily Script manuell von der SSH Konsole als root durchlaufen lies, gabs keinerlei Probleme.

Dann habe ich das Script wie nachts in den Cronjob eingetragen und habe es auf 11 Uhr starten lassen. Um 11:42 dann stand der Server wieder... Allerdings nicht ganz. Unser Betreuer aus dem Rechenzentrum sagte mir, dass der Ping und die Anmeldung direkt auf der Konsole noch funktioniert. Nur die Dienste SSH / Apache usw. scheinen betroffen zu sein.

Was um alles in der Welt ist der Unterschied zwischen dem manuellen Aufruf des Scriptes und des automatischen durch den Crontab??

Ich lass den RAID Controller noch drin, da ich mittlerweile echt sicher bin dass es an den Jobs liegt...

Gruss Thomas

Buck76
10.03.03, 15:16
Hi nochmal,

das zweite Mal das Backup Script per Cronjob ausgeführt und es lief durch. Allerdings ist mir aufgefallen, dass wir uns irgendwie am Limit des Arbeitsspeichers bewegen:

Physikalischer Speicher 97% 14.95 MB 485.64 MB 500.58 MB
Auslagerungsdatei auf Disk 0% 499.04 MB 0.00 KB 499.04 MB

Wie kann ich schauen, welcher Prozess dafür verantwortlich ist, mit top???

Thomas

bp6rz
11.03.03, 11:49
ja, z.B. mit top

P.S. bei mir war der onboard via-rhine Netzwerkadapter schuld.
Netzwerkgeschwindigkeit war nur 3-4 MBit/sec.

Hast Du mal die Geschwindigkeit des RAIDs geprüft?
hdparm -t /dev/sda

Buck76
11.03.03, 21:04
Hi,
hier also die Geschwindigkeit:

Timing buffered disk reads: 64 MB in 1.77 seconds = 36.16 MB/sec


Das ist nicht wirklich viel oder??
Ok, die Platte auf dem "Normalen" IDE hat

Timing buffered disk reads: 64 MB in 1.97 seconds = 32.49 MB/sec

Also doch in Ordnung. Wie kann ich die Netzwerkkarte denn testen? Ist schon ne Onboard Karte...

00:00.0 Host bridge: Intel Corporation 82810 GMCH [Graphics Memory Controller Hub] (rev 03)
00:01.0 VGA compatible controller: Intel Corporation 82810 CGC [Chipset Graphics Controller] (rev 03)
00:1e.0 PCI bridge: Intel Corporation 82801AA PCI Bridge (rev 02)
00:1f.0 ISA bridge: Intel Corporation 82801AA ISA Bridge (LPC) (rev 02)
00:1f.1 IDE interface: Intel Corporation 82801AA IDE (rev 02)
01:05.0 Unknown mass storage controller: Triones Technologies, Inc. HPT366 (rev 04)
01:07.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL-8139 (rev 10)

Oda etwa doch nicht?

Naja ich schau mal. Momentan läuft der Server recht stabil. Also an den SIcherungen lags wohl doch nicht...

Thomas

bp6rz
11.03.03, 21:52
ich hab die Netzwerkgeschwindigkeit getestet indem ich mit WS_FTP von Windows auf den RH-Server ne große Datei geuploaded habe. Nach n paar Sekunden hat sich die Übertragungsrate auf 3,5 MB/sec eingepegelt (zeigt WS_FTP an). Normal sind 90-100 MB/sec bei ner 100 MBit Karte.

Buck76
17.03.03, 08:15
Hallo,
nein, die Netzwerkgeschwindigkeit iss OK.

Allerdings ist das Backup Script nun doch die Ursache wie mir scheint. Ich habe es die ganze Woche "Kontrolliert" um 14 Uhr laufen lassen um eingreifen zu können. Natürlich lief es die ganze Zeit sauber durch. Nun hatte ich am Samstag beschlossen, die ganze Sache wieder auf Abends, aber 21 Uhr zu legen. Und prompt stand er wieder hin gestern Abend... um 21.45 Uhr. Und ich wette genau an derselben Stelle wie schon mal, da dies auch nach ungefähr 45 Minuten war. Frage an Euch: Was kann die Ursache sein? Filesystem Fehler? Wie kann ich meinen Verdacht bestätigen??

Gruss Thomas

Buck76
01.04.03, 10:08
Hallo,
einmal mehr hat sich heute morgen der Server "aufgehängt". Die "kontrollierte" Sicherung lief um 9 Uhr. Letzte Woche im übrigen auch jeden Tag... Aber punkt Tag 7 nach dem letzten Reboot bzw. nach 7 Tagen "Uptime" + Backup steht das Ding wieder...

Immer am 7. Tag wie mir scheint in Kombination mit dem Daily Backup (Sicherung Home Verzeichnisse + MySQL + Mailverzeichnisse) steht der Server.

In den Weekly Crontab Scripts ist aber nix mehr drin...

Gruss Thomas

geronet
01.04.03, 19:47
Kann es sein dass der Server haengt wenn du CPU Last herstellst?
Ich mein dass das Netzteil die Leistung nicht mehr bringt..

Buck76
02.04.03, 07:36
Hi,

hm... hab ich auch schon überlegt. Nur gestern wars doch so, dass die Sicherung komplett gelaufen ist. Also war er mit der eigentlichen Last durch, als der Server hing... ??

Thomas

geronet
02.04.03, 19:36
Es kann eigentlich an allem hängen, z.B. dass eine kurze Unterspannung und gleichzeitig die hohe CPU Last den Rechner killt..

Mach doch mal einen Dauertest, indem du Backup nach Backup durchziehst, den ganzen Tag.
Oder nacheinander die Hardware austauschen, zuallererst das Netzteil.
Untersuche auch einmal die Kondensatoren auf dem Mainboard ob sich einer irgendwie verbeult hat oder ausgelaufen ist.

Wenn du aber sicher (!) den Fehler am 7. uptime-Tag reproduzieren kannst, stimmt was anderes nicht. Tritt der Fehler denn immer zum gleichen Zeitpunkt in der Woche auf (Putzfrau;))?


Grüsse, Stefan