Nagios-Fragen (zu Intervallen)

**basstscho** · 20.10.08, 12:58

Hallo zusammen,

ich bin gerade dabei Nagios einzuführen. Ich habe viel im Inrternet gelesen, bin aber leider auch etwas durch die ganzen verschiedenen Konfigurationen verwirrt und habe daher ein paar Fragen bezüglich der Intervalle.

Testweise lasse ich mal unsere AccessPoints per Nagios überwachen. Hier die entsprechende wlan10.cfg

Code:

# HOST #

define host{
        name                            WLAN10.bix.local    ; The name of this host template
        notifications_enabled           1       ; Host notifications are enabled
        event_handler_enabled           1       ; Host event handler is enabled
        flap_detection_enabled          1       ; Flap detection is enabled
        failure_prediction_enabled      1       ; Failure prediction is enabled
        process_perf_data               1       ; Process performance data
        retain_status_information       1       ; Retain status information across program restarts
        retain_nonstatus_information    1       ; Retain non-status information across program restarts
        register                        0       ; DONT REGISTER THIS DEFINITION - ITS NOT A REAL HOST, JUST A TEMPLATE!
        }

define host{
        use                     WLAN10.bix.local            ; Name of host template to use
        host_name               wlan10.bix.local
        alias                   wlan10.bix.local
        address                 169.254.100.10
        check_command           check-host-alive
        contact_groups          admins
        max_check_attempts      5
        notification_interval   120
        notification_period     24x7
        notification_options    d,r
        }

# SERVICE #

define service{
        name                            WLAN10.bix.local     ; The 'name' of this service template
        active_checks_enabled           1       ; Active service checks are enabled
        passive_checks_enabled          1       ; Passive service checks are enabled/accepted
        parallelize_check               1       ; Active service checks should be parallelized (disabling this can lead to major performance problems)
        obsess_over_service             1       ; We should obsess over this service (if necessary)
        check_freshness                 0       ; Default is to NOT check service 'freshness'
        notifications_enabled           1       ; Service notifications are enabled
        event_handler_enabled           1       ; Service event handler is enabled
        flap_detection_enabled          1       ; Flap detection is enabled
        failure_prediction_enabled      1       ; Failure prediction is enabled
        process_perf_data               1       ; Process performance data
        retain_status_information       1       ; Retain status information across program restarts
        retain_nonstatus_information    1       ; Retain non-status information across program restarts
        register                        0       ; DONT REGISTER THIS DEFINITION - ITS NOT A REAL SERVICE, JUST A TEMPLATE!
        }

define service{
        use                             WLAN10.bix.local         ; Name of service template to use
        host_name                       wlan10.bix.local
        service_description             PING
        is_volatile                     0
        check_period                    24x7
        max_check_attempts              5
        normal_check_interval           10
        retry_check_interval            1
        contact_groups                  admins
        notification_options            w,u,c,r
        notification_interval           120
        notification_period             24x7
        check_command                   check_ping!100.0,20%!500.0,60%
        }

Mit der oben gezeigten Konfiguration funktioniert alles. Doch Frage ich mich, inwiefern ich alles richtig eingestellt habe.

Ich möchte:
- alle 10 Minuten prüfen, ob ein Ping funktioniert (normal_check_interval)
- nach 5 missglückten Pings (max_check_attempts) eine Nachrticht versendet haben
- die Zeit zwischen den missglückten Versuchen soll eine Minute betragen (retry_check_interval)
- dann alle 2h eine weitere Nachricht versenden (notification_interval).

Nun noch meine Fragen:
Er versendet ja nun nach 5min die Nachricht - in welchem Intervall prüft er dann weiter, ob der Service wieder verfügbar ist? Jede Minute - bis er wieder Online ist und dann bekomme ich eine recovery-Nachricht?

Nun habe ich ja noch mehrere AccessPoints. Wie mus sich sinnvoll vorgehen, um möglichst wenig konfigurieren zu müssen? Momentan habe ich die ganze Konfigurationsdatei kopiert und einfach WLAN10 durch WLAN11 ersetzt - das geht doch aber sicher besser...Ebenso kann ich doch auch sicherlich einige doppelten Einträge herausnehmen...was ist sinnvoll?

Falls ihr noch Infos aus der nagios.cgf braucht einfach sagen - die ist zu groß zum Posten.

Ich hoffe ihr bringt noch etwas Licht ins Dunkel,
Grüße Johannes

**marce** · 20.10.08, 13:11

nach dem Versenden der Nachricht überprüft er wieder mit dem normalen Intervall - also 10 Minuten.

Um die Geschichte möglichst einfach zu machen könntest Du die AccessPoints zu Hostgroups zusammenfassen und den Check gegen die Hostgroup laufen lassen.

Das einzige, was Du ded. konfigurieren musst sind die Hosts.

**basstscho** · 20.10.08, 13:30

Hey,

danke für die Antwort. Also die Intervalle passen so wie ich das konfiguriert habe mit dem überein, was ich möchte? Weil im Internet hab ich irgendwo mal gelesen, dass man die Zeit (in Sekunden), die so ein Intervall hat einstellen kann.

Noch was bezüglich Nagios - die Emails erhalten leider nie die "Additional-Infos" - immer nur ein $ - in der Weboberfläche werden sie aber angezeigt...

Code:

***** Nagios  *****

Notification Type: RECOVERY
Host: titan.bix.local
State: UP
Address: titan
Info: $

Date/Time: Sun Oct 19 15:53:16 CEST 2008

Code:

***** Nagios  *****

Notification Type: PROBLEM

Service: DNS
Host: calypso.bix.local
Address: calypso
State: CRITICAL

Date/Time: Sun Oct 19 15:55:36 CEST 2008

Additional Info:

$

Hat da noch jemand ne Idee dazu?

Code:

define contact{
        contact_name                    xxxxx
        alias                           xxx
        service_notification_period     24x7
        host_notification_period        24x7
        service_notification_options    w,u,c,r
        host_notification_options       d,r
        service_notification_commands   notify-by-email
        host_notification_commands      host-notify-by-email
        email                           xxxxx
        }

Danke,
Grüße Johannes

**dereulenspiegel** · 23.10.08, 09:31

Dazu müsstest du mal in deine Kommandodefinitionen reingucken (commands.cfg oder so). Da stehen dann auch der notify-by-email und host-notify-by-email Befehl. Diese Befehle printen einfach nur etwas Text mit Nagiosvariablen und pipen das an den Mailer weiter. Eventuell ist da ein kleiner Tippfehler und eine Variable wird nicht richtig erkannt. In der Nagios-Doku sind auch alle Variablen die man da einsetzen kann aufgeführt und erklärt.