さらにiLOが威力を発揮するのは、ハードウェア障害やシステムクラッシュが発生したときである。iLOでは、システムファームウェアやOS、そしてiLO自身が出力するイベントログを不揮発性メモリに記録している。電源投入時やクラッシュ時にシステムファームウェアがプロセッサーやチップセットから収集した情報を、あとからiLO上でゆっくり解析できる仕組みだ。
ここで例として、サーバが突然リブートしたケースを想定してみよう。アプリケーションやOSのログに不審な点がなければ、ハードウェアの間欠障害や電源まわりのトラブルが考えられるだろう。通常、このどちらが原因か特定するのは容易ではないが、iLOを使えばその手がかりとなる情報が得られる。例えば、HP
Integrity rx1620の動作中に電源ケーブルを抜いて停電発生を再現してみると、iLOには以下のようなログが残る。
Log Entry 6009: 13 Oct 2005 09:08:39
Alert Level 3: Warning
Keyword: Type-02 226f0a 2256650
ACPI state S5 (soft-off, entered by override)
Logged by: Baseboard Management Controller;
Sensor: System ACPI Power State - ACPI State
Data1: S5 entered by override
0x20434E2417022A50 FFFF0A6FFA220300 |
このように「ACPI state S5」(電源完全オフ)への移行を示すワーニングが記録されるため、管理者はサーバダウンの原因が給電のトラブルであることを特定できるわけである。このほかiLOではコンソール出力もすべて記録しているため、システムダウン時に表示されたメッセージを再現することも可能だ。 |