PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Cluster: OpenPBS Deinstallation und Torque Installation



K-Sandra
16.08.06, 18:23
Hallo Leute,

ich habe ein Problem mit dem Batch Queuing System "Torque", bzw. seinem Vorgänger OpenPBS und hoffe, dass sich hier jemand für solch exotische Themen interessiert: :)

Folgendes System habe ich hier lauffähig:
-Linux-Server (SUSE 10.1) mit Installation von "Torque-2.1.2" (pbs_server und pbs_scheduler)
- 2 Linux HPC-Cluster (RHEL4) mit Installation von "Torque-2.1.2 (pbs_mom)

Folgendes System würde ich gerne lauffähig bekommen:
Die 2 Linux HPC-Cluster möchte ich jetzt an einen anderen Linux-Server anschließen (Suse 9.0) auf dem aber schon OpenPBS installiert ist (Vorläufer von Torque mit den gleichen Prozessbezeichnungen und ähnlichen Verzeichnissen - auch die config Files heißen gleich).

Problem:
Der pbs_server von OpenPBS kommuniziert nicht mit den pbs_mom der beiden Cluster. Ok, das habe ich auch nicht zwangsläufig erwartet, aber:
Nachdem ich Torque auf dem Server installiert habe, funktioniert die Kommunikation zwischen ihm und den Knoten immernoch nicht. Der Befehl:
pbsnodes -a
meldet, dass der Status der beiden Nodes "down" statt "free" sei.
Dann viel mir plötzlich auf , dass der pbs_server das Nodes config File aus dem PBS Verzeichnis liest, statt aus dem Torque Verzeichnis. Daraufhin habe ich den Prozess pbs_server gekillt und mit komplettem Pfad ausgeführt, um auf Nummer Sicher zu gehen, dass nicht der pbs_server Prozess vom OpenPBS sondern der vom Torque gestartet wird. Leider liefert
pbsnodes -a
immer noch den Status "down" für bei Knoten (pingen, nslookup, dig funktioniert alles beidseitig, so dass ich ausschließen kann, dass es sich um ein Netzwerkproblem handelt).

OpenPBS lässt sich nicht so einfach deinstallieren, weil es kein rpm ist und es wohl auch kein make uninstall gibt (wüsste nicht, wo und wie ich das ausführen sollte, denn ich finde keinen Pfad, aus dem es installiert worden ist).

Bitte, bitte sagt mir, dass es jemanden hier gibt, der sich schon mit HPC-Clustern beschäftigt hat und sowohl OpenPBS als auch Torque kennt... :o
Alternativ würde ich mich auch sehr über eine Antwort freuen, die mir mitteilt, wie ich möglichst sauber das OpenPBS entfernt bekomme (habe Torque erstmal wieder deinstalliert).

Gaaanz vieele liebe und leider verzweifelte Grüße,
K-Sandra.
:rolleyes: