PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : RAM "Fehler" !



tux-lux
19.10.04, 20:57
Hallo!

Ich habe irgendwie ein Problem, was ich nicht so richtig verstehen kann.
Vor kurzem ist mein Server (Prozessor: AMD Duron 960MHz, OS: Debian sarge) beim Kompilieren des Kernels abgestütztz.
Ich habe danach als letzte meldung vor dem Absturtz das hier rausgefischt:

Oct 19 20:24:18 nexus kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0.
Oct 19 20:24:18 nexus kernel: Bank 1: 9000000000000171


Diese Meldung konnte ich schon immer beobachten, seit dem ich den Kernel 2.6 installiert habe.
Ich habe das lange Zeit ignorriert, aber jetzt ist es mir aufgefallen (lieber später als nie :)),
dass der Fehler immer an der 9000000000000171-er Adresse auftritt, obwohl ich inzwischen
unterschiedliche RAM-Riegel (SDRAM), unterschiedlicher Hersteller und unterschiedlicher
Größe gehabt habe. Also gehe ich davon aus, dass es nicht am RAM liegt.

Der Effekt tritt nur dann auf, wenn ich etwas Rechenintensives mache (z.B. Kernel kompilieren)
und gleichzeitig noch irgendwelche Dienste anspreche.

Zudem treten nur auf dieser Machine Speicherverletzungen beim Kernelkompilieren, die mit dem gleichen Kompilier auf einer anderen (Athlon) nicht auftreten. Ich weiss nicht, ob das irgenwie damit zusammen hängt.

Hat jemand irgendwelche Ahung, woran es doch liegt bzw. liegen könnte?

gonzo_18
19.10.04, 21:21
nutzt du ECC Ram? Oder hast du aus versehen ECC im Bios aktiviert?

tux-lux
20.10.04, 08:56
ECC ?
Was würde das Abschalten im BIOS bewirken?

tux-lux
20.10.04, 09:03
Ich glaube doch nicht, dass es ein ECC fähiges RAM ist, da es nur ein "Billig" RAM ist (no name).
Und im BIOS gibts auch keine Möglichkeit das einzustellen.
Also, kanns vielleicht nicht daran liegen? Außerdem würde das den Rechner nicht zum Absturtz bringen, dafür is ja ECC da :) , oder?

HEMIcuda
20.10.04, 09:05
ECC bedeutet Error Checking & Correction. Dazu benoetigt man aber spezielle RAM-Module
und der Chipsatz muss es auch unterstuetzen. Wenn Du keine ECC-faehigen Module oder
Chipsatz hast, bewirkt das (de-)aktivieren im BIOS gar nicht. Wenn Du die Moeglichkeit hast,
die CPU mal auszutauschen, versuch das mal.

'cuda

Susu
20.10.04, 09:22
Und überprüf mal die Elkos auf Deinem Board...

tux-lux
20.10.04, 12:58
Naja, ich würde auch darauf tippen, dass da was mit dem Register von der CPU nicht in ordnung ist.
Sonst würde der gcc nicht einfach so mehrmals mit einer Speicherschutzverletzung beim Kompilieren des Kernels abstürtzen, da es rel. selten vorkommen soll :)

Wegen Elkos, was kann man da genau prüfen?

Was kann auch noch auf die Funktionalität des RAM´s Auswirkungen haben? Ich habe nähmlich das Problem, dass die Speed irgendwie niedriger gesetzt wird, als das RAM eig. kann.
Und wenn ich im BIOS auf eine feste Geschwindigkeit oder Latenzzeit einstelle, macht das RAM, das auf der 1. Bank sitzt immer nicht mit. Geht also nur mit "Autom."-Modus.

Danke für Ihre Antworte.

tux-lux
20.10.04, 13:12
Komisch nur, dass ich damit erst mit dem gcc 3.3.3 und 2.6.7-er K. häufig probleme habe.
Mit älteren Kompilier und älteren Kernels ist es immer noch irgendwie "gut" ausgegangen :)

Susu
20.10.04, 13:17
Wegen Elkos, was kann man da genau prüfen?Du solltest mal gucken, ob sie eine gewölbte Oberfläche haben oder gar geplatzt sind.

Ich hatte damals auch immer Probleme, erst nur beim Kompilieren, dann auch beim encodieren von MP3 und anderen "aufwändigen" Sachen. Hab den RAM getestet, und siehe da, es kamen Fehler. Neuen RAM gekauft und eingebaut, beim memtest Fehler an genau der selben Stelle. Da bin ich stutzig geworden und hab mir mein Board mal genauer angeschaut. 2 Elkos hatten einen gewölbten Deckel und waren kurz vorm Platzen.

Susu

tux-lux
20.10.04, 16:07
Ok, ich werds mal anschauen.
Und mal angenommen, dass die Elkos defekt sind, was lohnt sich dann zu machen? Das Board is dann bestimmt im Eimer. Ein 40 Euro Board lohnt es sich nicht zu reparieren :)

Danke für die Antwort

Hun
20.10.04, 16:09
elkos gibt's für 50c/Stück
und das bisserl löten sollte man imho schon können

atomical
20.10.04, 17:54
elkos gibt's für 50c/Stück
und das bisserl löten sollte man imho schon können

bei multilayer platten sollte man sich das nicht zu einfach vorstellen - vorallem erstmal den alten entfernen ohne dabei das Board / das Lötauge zu zerstören ...

Hun
20.10.04, 17:59
Bei den Boards die ich bis jetzt gelötet hab (waren nur 2) war unterhalb der elkos sonst nix, da konnt ich net viel kaputt mache ;)

tux-lux
20.10.04, 19:20
Hallo !

Habe mein Problem in gewisser Weise doch behoben und das Löten ist mir erspart geblieben :)
Abgesehen davon, alle Elkos waren föllig in Ordnung.

Ich habe den FSB ein wenig runtergeschraubt, da ich vor Paar Monaten ihn hoch getaktet habe, um etwas mehr Speed aus dem Duron rauszuholen.
Nachdem ichs wieder runter gesetzt hab, war auf einmal alles OK, sogar das Kompilieren ging ohne Fehler usw.

Diese Billigprozessoren, können nicht mal Paar mHz mehr verkraften :)
Zeigt anschenend die Qualität der AMD´s Proz. *g*

Naja, trotzdem danke für Ihre Antworten ! War doch in gewisser Weise hilfreich.

lukesky
20.10.04, 19:49
Hallo !

Habe mein Problem in gewisser Weise doch behoben und das Löten ist mir erspart geblieben :)
Abgesehen davon, alle Elkos waren föllig in Ordnung.

Ich habe den FSB ein wenig runtergeschraubt, da ich vor Paar Monaten ihn hoch getaktet habe, um etwas mehr Speed aus dem Duron rauszuholen.
Nachdem ichs wieder runter gesetzt hab, war auf einmal alles OK, sogar das Kompilieren ging ohne Fehler usw.

Diese Billigprozessoren, können nicht mal Paar mHz mehr verkraften :)
Zeigt anschenend die Qualität der AMD´s Proz. *g*

Naja, trotzdem danke für Ihre Antworten ! War doch in gewisser Weise hilfreich.
*batsch*
das übertackten des CPU´s ist auf garkeinen fall gut für ein linux system ....
Kompilen kann man dann sogut wie komplt vergessen ;)

atomical
21.10.04, 12:19
Ich habe den FSB ein wenig runtergeschraubt, da ich vor Paar Monaten ihn hoch getaktet habe, um etwas mehr Speed aus dem Duron rauszuholen.
Nachdem ichs wieder runter gesetzt hab, war auf einmal alles OK, sogar das Kompilieren ging ohne Fehler usw.

Diese Billigprozessoren, können nicht mal Paar mHz mehr verkraften :)
Zeigt anschenend die Qualität der AMD´s Proz. *g*

Naja, trotzdem danke für Ihre Antworten ! War doch in gewisser Weise hilfreich.

nen Duron übertakten - das wirds bringen :ugly: - und sich dann auch noch über Abstürze wundern / über die Qualität der außerhalb der Spezifikation betriebenen Hardware beschweren - mann mann mann ...