Nagios-Fragen (zu Intervallen) [Archiv] - linuxforen.de -- User helfen Usern

basstscho

20.10.08, 12:58

Hallo zusammen,

ich bin gerade dabei Nagios einzuführen. Ich habe viel im Inrternet gelesen, bin aber leider auch etwas durch die ganzen verschiedenen Konfigurationen verwirrt und habe daher ein paar Fragen bezüglich der Intervalle.

Testweise lasse ich mal unsere AccessPoints per Nagios überwachen. Hier die entsprechende wlan10.cfg

# HOST #

define host{
name WLAN10.bix.local ; The name of this host template
notifications_enabled 1 ; Host notifications are enabled
event_handler_enabled 1 ; Host event handler is enabled
flap_detection_enabled 1 ; Flap detection is enabled
failure_prediction_enabled 1 ; Failure prediction is enabled
process_perf_data 1 ; Process performance data
retain_status_information 1 ; Retain status information across program restarts
retain_nonstatus_information 1 ; Retain non-status information across program restarts
register 0 ; DONT REGISTER THIS DEFINITION - ITS NOT A REAL HOST, JUST A TEMPLATE!
}

define host{
use WLAN10.bix.local ; Name of host template to use
host_name wlan10.bix.local
alias wlan10.bix.local
address 169.254.100.10
check_command check-host-alive
contact_groups admins
max_check_attempts 5
notification_interval 120
notification_period 24x7
notification_options d,r
}

# SERVICE #

define service{
name WLAN10.bix.local ; The 'name' of this service template
active_checks_enabled 1 ; Active service checks are enabled
passive_checks_enabled 1 ; Passive service checks are enabled/accepted
parallelize_check 1 ; Active service checks should be parallelized (disabling this can lead to major performance problems)
obsess_over_service 1 ; We should obsess over this service (if necessary)
check_freshness 0 ; Default is to NOT check service 'freshness'
notifications_enabled 1 ; Service notifications are enabled
event_handler_enabled 1 ; Service event handler is enabled
flap_detection_enabled 1 ; Flap detection is enabled
failure_prediction_enabled 1 ; Failure prediction is enabled
process_perf_data 1 ; Process performance data
retain_status_information 1 ; Retain status information across program restarts
retain_nonstatus_information 1 ; Retain non-status information across program restarts
register 0 ; DONT REGISTER THIS DEFINITION - ITS NOT A REAL SERVICE, JUST A TEMPLATE!
}

define service{
use WLAN10.bix.local ; Name of service template to use
host_name wlan10.bix.local
service_description PING
is_volatile 0
check_period 24x7
max_check_attempts 5
normal_check_interval 10
retry_check_interval 1
contact_groups admins
notification_options w,u,c,r
notification_interval 120
notification_period 24x7
check_command check_ping!100.0,20%!500.0,60%
}

Mit der oben gezeigten Konfiguration funktioniert alles. Doch Frage ich mich, inwiefern ich alles richtig eingestellt habe.

Ich möchte:
- alle 10 Minuten prüfen, ob ein Ping funktioniert (normal_check_interval)
- nach 5 missglückten Pings (max_check_attempts) eine Nachrticht versendet haben
- die Zeit zwischen den missglückten Versuchen soll eine Minute betragen (retry_check_interval)
- dann alle 2h eine weitere Nachricht versenden (notification_interval).

Nun noch meine Fragen:
Er versendet ja nun nach 5min die Nachricht - in welchem Intervall prüft er dann weiter, ob der Service wieder verfügbar ist? Jede Minute - bis er wieder Online ist und dann bekomme ich eine recovery-Nachricht?

Nun habe ich ja noch mehrere AccessPoints. Wie mus sich sinnvoll vorgehen, um möglichst wenig konfigurieren zu müssen? Momentan habe ich die ganze Konfigurationsdatei kopiert und einfach WLAN10 durch WLAN11 ersetzt - das geht doch aber sicher besser...Ebenso kann ich doch auch sicherlich einige doppelten Einträge herausnehmen...was ist sinnvoll?

Falls ihr noch Infos aus der nagios.cgf braucht einfach sagen - die ist zu groß zum Posten.

Ich hoffe ihr bringt noch etwas Licht ins Dunkel,
Grüße Johannes

marce

20.10.08, 13:11

nach dem Versenden der Nachricht überprüft er wieder mit dem normalen Intervall - also 10 Minuten.

Um die Geschichte möglichst einfach zu machen könntest Du die AccessPoints zu Hostgroups zusammenfassen und den Check gegen die Hostgroup laufen lassen.

Das einzige, was Du ded. konfigurieren musst sind die Hosts.

basstscho

20.10.08, 13:30

Hey,

danke für die Antwort. Also die Intervalle passen so wie ich das konfiguriert habe mit dem überein, was ich möchte? Weil im Internet hab ich irgendwo mal gelesen, dass man die Zeit (in Sekunden), die so ein Intervall hat einstellen kann.

Noch was bezüglich Nagios - die Emails erhalten leider nie die "Additional-Infos" - immer nur ein $ - in der Weboberfläche werden sie aber angezeigt...

***** Nagios *****

Notification Type: RECOVERY
Host: titan.bix.local
State: UP
Address: titan
Info: $

Date/Time: Sun Oct 19 15:53:16 CEST 2008

***** Nagios *****

Notification Type: PROBLEM

Service: DNS
Host: calypso.bix.local
Address: calypso
State: CRITICAL

Date/Time: Sun Oct 19 15:55:36 CEST 2008

Additional Info:

$

Hat da noch jemand ne Idee dazu?

define contact{
contact_name xxxxx
alias xxx
service_notification_period 24x7
host_notification_period 24x7
service_notification_options w,u,c,r
host_notification_options d,r
service_notification_commands notify-by-email
host_notification_commands host-notify-by-email
email xxxxx
}

Danke,
Grüße Johannes

dereulenspiegel

23.10.08, 09:31

Dazu müsstest du mal in deine Kommandodefinitionen reingucken (commands.cfg oder so). Da stehen dann auch der notify-by-email und host-notify-by-email Befehl. Diese Befehle printen einfach nur etwas Text mit Nagiosvariablen und pipen das an den Mailer weiter. Eventuell ist da ein kleiner Tippfehler und eine Variable wird nicht richtig erkannt. In der Nagios-Doku sind auch alle Variablen die man da einsetzen kann aufgeführt und erklärt.