Jump to content 日本-日本語
日本HPホーム 製品とサービス サポートとドライバ ソリューション ご購入方法
≫  お問い合わせ
日本HPホーム
製品とサービス  >  ソフトウェアとOS  >  HP OpenView  >  HP OpenView News

【44-03】 HP OpenView Operationsで実現する
高度な障害監視について

HP OpenView News Vol.44 (2006.11.16発行)

HP OpenView News TOP

Vol.44 TOP

【44-01】
世界で認められたセキュリティ専門家資格「CISSP」とは -3-

【44-02】
シリーズ“HP OpenView講座”vol.25
HP OpenView お役立ちサイト集 ご紹介 vol.2

【44-03】
HP OpenView Operationsで実現する高度な障害監視について

【44-04】
HP OpenView製品情報
HP OpenView Select Auditのご紹介

【44-05】
今、注目の情報満載!ニュース、イベント、セミナーご紹介

HP OpenView Newsのご紹介

HP OpenView

ITSMとITIL

HP Software News:ITIL、ITガバナンス、品質保証等、読み物満載
メール配信登録はこちら
コンテンツに進む

はじめに

運用管理に関わるお客様のご要望を伺い、その要望からお客様の課題を抽出し解決策をご提供する活動を行っていると、サーバ、ネットワーク機器のイベント監視がうまくいかず、お困りになっていらっしゃるお客様が比較的多いように思われます。

そこで今回は、イベント監視がどのようにうまくいっていないのか?そして、どう対策をすればその悩みは解決するのかについて考察していきたいと思います。

ITインフラ監視における課題

イベント監視でうまくいっていない状況としては、以下の点が特に多いようです。
  (1)監視対象システムの計画停止中に不要なイベントが大量に発生する。
  (2)同一イベントが瞬間的に大量発生してしまう。(イベントストーム)

これらの状況により、
  a) 対応の有無を人間が判断している⇒人為的な監視ミスに繋がる
  b) 監視(対応)しなければならないイベントの見落とし⇒障害発見が遅れる
  c) 監視システム自体の応答性劣化⇒監視できない
という事態が発生する可能性が高くなります。

そして、インフラストラクチャで発生するイベントを監視コンソールに全て“垂れ流し“しているということがこれらの状況を引き起こす原因となっています。例えば、通常の運用状況では毎分数イベント程度の表示でも上記のような状況では、毎秒数10〜100イベント表示ということになります。つまり垂れ流しでの目視監視では障害の早期発見という目的を果たすことが出来なくなるのです。

課題を解決するための機能

HPの統合管理ツールである、HP OpenView Operations for UNIX(以下、OVO)には、これらの課題を解決するための機能が用意されています。今回は、主なイベント処理機能と特長について簡単にご説明します。

主なイベント処理機能と特長
主なイベント処理機能と特長
拡大画像(新規Window)

(1)監視テンプレート OVOによる監視の基本中の基本であるテンプレートには、どんな監視対象(メッセージソース)をどのようなタイミングで、どういうルールに基づいてイベント検知するのかが記述されます。
この監視テンプレートはOVO管理者GUIで編集され、それらはOVOマネージャ上から各監視対象システムへ配布することが可能です。
(2)表示フィルタリング 監視コンソール上で特定のキーワードを使用することでコンソール上に表示させるイベントを抽出する機能で、主にアクティブメッセージブラウザに表示されるべきイベントに対してフィルタを設定することでメッセージを絞り込む場合に使用します。
(3)重複メッセージカウンタ機能 同一監視対象ノード、同一メッセージが発生した場合にこれらを同じイベントとして処理を行い、アクティブメッセージブラウザ上でカウンタ表示を行います。これによってブラウザ内でのイベントの視認性を向上させることが可能になります。
(4)計画停止機能(Outage) 監視対象システムが計画停止を行う際に事前にメッセージを破棄するのか、ログにのみ記録するのかを定義しておき、計画停止時にこの機能を有効にすることで、監視コンソールへのメッセージ表示を抑止することができます。
これにより、計画停止システムで発生するイベントを監視コンソールへ表示させずに負荷を軽減させます。
(5)イベント相関(ECS)機能 監視マネージャもしくはエージェント上で、特定のメッセージ処理ルールに基づき、メッセージの加工・廃棄・新規作成を行うことが出来ます。
例えば、同一メッセージが10秒間発生した場合には1つのメッセージのみを表示し、後は廃棄するなどの定義が可能です。
このように一定のルールやパターンが判明しているイベント発生時には予めECS機能を使用してその抑止条件を定義し、実装しておくことでイベントストームなどによる監視イベントの視認性低下やOVOマネージャ自身の負荷低減を図ることが可能です。
ECSで使用するイベント処理ルールは予め用意されたテンプレートを使用してECSコンポーザによりパラメータ指定等を行うことで作成可能となります。
(6)メッセージストリームインターフェース(MSI) OVOには“メッセージストリーム”という監視イベントを取り扱う経路(のようなもの)が存在します。その経路に外部アプリケーションからアクセスし、イベントを取り出し、加工したものをメッセージストリームに戻す等の作業を行う為のインターフェースをMSIと呼んでいます。MSIにアクセスするための手続きはAPIによって提供されています。先にご説明したECSはこのMSIを使用してイベントを抽出しています。
ECS機能では対応できないような特殊な要件がある場合には、MSIを使用した外部アプリケーションを別途開発する必要があります。


OVOの主な機能の利用方法

では、実際に上記機能をどのように利用し、イベント監視の際に監視すべきイベントを絞り込めばいいのでしょうか。先にご紹介させていただいた(1) (2)の機能はOVOの基本的な監視機能ですので、ここでは割愛させていただきます。
この章では特に(3)〜(5)の機能の利用方法についてご紹介します。

(3)重複メッセージカウンタの利用

重複メッセージカウンタはOVO管理者GUI上で簡単に設定することが出来ます。この機能を有効にすると重複対象と判断されるイベント(*)はアクティブメッセージブラウザ上の重複カラムでカウント表示されます。
ただし、本機能を実装する際には、メッセージブラウザの処理速度が劣化する可能性がある点に注意が必要です。これの影響を回避するには監視テンプレート内にメッセージキーを登録し、同一メッセージとして扱う定義を行い、重複カウンタ処理時に表示速度を向上させる方法があります。

重複メッセージカウンタ
重複メッセージカウンタ
拡大画像(新規Window)

(*)重複イベントとして判断される基準は、デフォルトではノード名とメッセージテキストが同一のイベントとなっています。

(4)計画停止機能の利用

計画停止機能は予め計画停止をする監視対象ノードの定義をOVOマネージャ上のoutageテンプレートに記述しておき、opccfgout(1m)コマンドで計画停止名を指定しイベント処理を有効化、無効化することが可能です。
有効化された場合、計画停止対象となったノードからのイベントはOVOデータベースへの格納のみでブラウザ表示をしないモード(LOGONLY)、もしくは破棄(SUPRESS)のモードの指定ができます。
また、計画停止時にイベント処理をする条件として、ノード名、メッセージグループなど様々なメッセージ属性を対象とすることが可能です。
計画停止を設定するテンプレートは、
/etc/opt/OV/share/conf/OpC/mgmt_sv/tmpl_respmgrs/outage
ファイルにサンプルが記述されています。

監視業務と保守業務の連携
監視業務と保守業務の連携
拡大画像(新規Window)

(5)イベント相関機能(ECS)の利用

ECS機能自体は過去のOVOバージョンでも装備されていたのですが、ECS DesignerというECS機能で使用する相関処理ルールを作成する設計ツールが別途必要でした。
OVO8からその相関処理ルールを作成するエディタであるECSコンポーザが標準で装備されています。

ECS コンポーザは、以下のコマンドで実行することが出来ます。

  • ECSコンポーザGUIの起動
       ovocomposer -ui
  • 作成したコリレータのOVOマネージャへのインストール
       ovocomposer -install [ -fs fstore1 [ -fs fstore2 ... ] ] -ms
  • 作成したコリレータのOVOエージェントへのインストール
       ovocomposer -install [ -fs fstore1 [ -fs fstore2 ... ] ] -agt node1 [ node2 ... ]
また、ECSコンポーザには様々なコリレータテンプレートが用意されており、イベント処理のパターンに応じた実装が可能です。作成したコリレータテンプレートは、上記のコマンドでインストールを行うことで初めて有効になります。

コリレータの設定画面
コリレータの設定画面
拡大画像(新規Window)

コリレータテンプレートには以下のようなタイプがあります。

◆情報拡張 受信したイベントを元にそれを変更するか新たなイベントを生成します。
◆マルチソース 複数イベントの組合せからその一部を廃棄、変更、あらたなイベントを生成します。
◆レート イベントの発生頻度(一定時間内に何件受信したか)を元に新たなイベントを生成します。
◆繰り返し ある時間内に繰り返し受信されるイベントに対して廃棄や新たなイベント生成します。同一メッセージが一定時間内に発生するケースでイベントの大量発生を抑止することが可能です。
◆アラーム抑制 条件に合致したイベントを廃棄します。
◆過渡状態 一時的・短期間の異常(すぐに正常に戻るタイプの)イベントを定義します。
◆ユーザ定義 外部モジュールのコールを利用します。外部モジュールは開発が必要です。

これらのコリレータテンプレートを複数実装した場合には、図のような順番で評価が行なわれます。

コリレータの評価の順番
コリレータの評価の順番
拡大画像(新規Window)

最後に

OVOのイベント制御機能について簡単にご紹介しましたが、OVOにはこの他にもイベント監視機能を効果的に行っていただくための機能を装備しており、従来まで人に大きく依存していた作業がOVOの機能に取り込むことによって、監視漏れ防止や障害に対する初動対応の短縮が可能となります。

また、多くのお客様がITILベースでのインシデント管理を導入されようとしています。インシデント管理を実践する上で、システムから大量に発生するイベントを監視し、その中からビジネスに影響を及ぼすイベント(インシデント)を発見して管理を行うためには、今回ご紹介した機能は有効な手段となります。是非、OVOのこれらの機能を活用していただければ幸いです。

このページのトップへ

前の記事へ   (3/5)   次の記事へ
[1分アンケート]
  iPAQ  
 お聞かせください!あなたの感想。
 抽選で3名様に「iPAQ」差し上げます!
 締切:アンケートは終了しました。
 

PDFファイルをご覧いただくには、Adobe® Reader®が必要です。アドビシステムズ社のウェブサイトより、ダウンロード(無料)の上ご覧ください。
印刷用画面へ
プライバシー 本サイト利用時の合意事項 ウェブマスターに連絡
© 2008 Hewlett-Packard Development Company, L.P.