サービス障害時に、Nagiosが警報として障害を検知できているにも関わらず、通知(アラートメール)される場合と、通知されない場合があって、調べていたときのメモ。
- HOST ALERTおよびSERVICE ALERTが発生しているときは、SERVICE ALERTの通知は行われない。試行回数もカウントされず止まる。
- HOSTのLinuxサーバのテンプレート(linux-server)のデフォルトでは、"notification_period"(通知時間帯)が"workhours"(デフォルト平日9:00-17:00)になっている。
- Windowsサーバのテンプレート(windows-server)では、"24x7"(常時)になっているのだが・・・。
- "flap_detection_enabled"なるフラッピングを検知するための設定がある。(フラップ検知設定)
- フラッピングは、ホストやサービスの状態が頻繁に変化し、障害と復旧の通知の嵐になったときに発生するとのこと。
- Nagios3系では、デフォルトで有効になっていた。
- フラッピングを検知すると、その旨がログに書き出され、通知されるのが回避されるようだ。
- 検知する際の閾値は"low_flap_threshold"と"high_flap_threshold"で設定できる。
デフォルトのまま何でも使っちゃいかんね。当たり前だけど。
と言いつつ、設定を見直し始めたが、設定項目が多くてすぐに見直しきれない。使いこなすには、もう少しノウハウが必要そうだ。