映画「アポロ13」では出発前の出来事も描かれています。
妥協を許さないトレーニングやテスト、3人の飛行士の人柄や家族、彼らをとりまく大勢のスタッフ達の活躍も細かく描かれており、リアルなストーリー展開や映像を観ていると、そこには、全ての機材や人材は幾重にも用意されていて、万一の事態が発生しても、即座に対応できる状態であることが分かります。
さて、アポロ13で宇宙に飛び立つ3人の飛行士のうち1人が、出発直前の医学検査で風疹に感染した可能性があることが判明します。そのまま予定どおり出発してしまえば、宇宙へ出かけている間に風疹が発症し、他の2人への感染の危険性があるだけでなく、このプロジェクト自体の遂行に問題が発生する危険があります。しかし、宇宙軌道のタイミングや気象条件(または、ベトナム戦争との兼ね合い)を考えると、アポロ13の打ち上げスケジュールを変更することは、アポロ計画全体への影響が大きくなり、できません。
アポロ13では、さらに別の3人が予備の飛行士として正規の飛行士と同じく訓練されており、交代する準備も整っていました。しかし、遠い宇宙空間では失敗が許されず、全てに完璧なオペレーションが求められる3人の飛行士にとって、チームワークが何よりも重要であり、ちょっとしたお互いの癖や言葉のニュアンスなども、十分に理解し合っていなければなりません。そこで、3人共に交替させるか、チームワークが悪くなるかもしれないリスクをとっても、1名のみ交代すべきか、関係者は苦渋の決断をすることになります。結局は、1名のみの交代で出発することになるのですが。
ITILでは、可用性(アベイラビリティ)を以下の3つの要素で構成されていると解説しています。
- アベイラビリティ(可用性)
- リライアビリティ(信頼性)
- メンテナビリティ(保守性)
飛行士をアポロ13の構成部品と例えるなら、飛行士が訓練中や宇宙飛行中に何らかの理由で通常に職務を遂行できなくなるというのは、部品の故障と同じと考えることができます。従って、そのような飛行士はリライアビリティ(信頼性)が低いことになりますね。
ただ、何らかの理由があったとしても、通常に職務が全う出来るのであれば、リライアビリティは高いといえます。
また、飛行士の職務遂行上に問題がなかったとしても、例えば遅刻をする等で訓練やロケット打ち上げのときに使えない飛行士はアベイラビリティ(可用性)が低いことになります。
そして、飛行士が職務を遂行できない事態が発生した時に、直ぐに、交換(この場合交代ですね)出来る状態であれば、飛行士のメンテナビリティ(保守性)が高いことになるわけです。
アポロ13の物語の中で、1名の飛行士を交代させる事が直ちにできて、予定どおりにロケットを打ち上げ、さらに、宇宙空間での任務を遂行できたのは、直ぐに部品が交換できてビジネスに影響を与えなかった、即ち、可用性が100%だったからとも言えますね。
さて、ITの世界でシステムの可用性の定義は以下のようになります:
可用性 = システムが使える状態だった時間 ÷ システムが必要だった時間
ビジネスの観点で考えると、ビジネス・アプリケーションが必要な時にどれだけ使える状態であるかと言うことになります。従って、ビジネス・アプリケーションを支えるソフトウエア、ハードウエアやネットワークなどの全ての要素が含まれることになります。
企業のビジネス形態は様々ですが、一般的に考えると、1週間のうち2日間は休日で、深夜・早朝はビジネス活動をしていませんから、それらの時間の全てが不要な時間と言う事ではないにしろ、システムが必要な時間は24時間 / 7日間ではないことになります。逆の言い方をすれば、例えば2日間の休日の内の何時間かは、システムが停止したとしても可用性には影響がないと言うことになるわけです。もちろん実際にはビジネス戦略上や社会的責任上、または、法律や規制で24時間365日システムが稼動することを必要とする場合もあります。
アポロ13のように、ロケットや宇宙船、飛行士などが幾重にも整備されて冗長化されていれば(地上での場合ですが)、単一障害点(その1つが故障すると、代替が無い為システム全体が停止に追い込まれるような部分)は存在せず、直ちに切り替え作業が完了することが想定され、可用性は限りなく100%に近づくことになります。しかし、可用性を100%にしようとすれば莫大な費用が必要になることは映画を観ていても明白です。
アポロ13の時代、アメリカは国家の威信をかけてソビエト(現在のロシア)と覇権を争っていました。また、ベトナム戦争が長期化し、反戦運動などが活発化していて、世界の人々の目を月に向かせる必要がありました。もちろん、人類を月へ送るわけですから些細なことでも即、人命に関わる事態に発展してしまいます。そして、アポロ計画が失敗すればアメリカの威信が失墜してしまうわけです。従って、アポロ計画における何らかの障害が発生し可用性が下がることは、国家としてのリスクが非常に高かったわけです。
一般の企業の場合、単に2重化、冗長化を図ってシステムの可用性を上げ、100%に近づければ良いと言うことではありません。ビジネス目標を達成する為のビジネス戦略を実行する上での様々なリスクを洗い出して評価し、どの程度リスクを回避するのか、低減するのか、または、受け入れるのかをコストの正当化と合わせて、テクノロジの選択やシステムの冗長化、監視の整備、またはエンドユーザ側でBCPを整備する等の対策を検討し実施することが先決です。従って、ここで重要なのは必ずしもビジネスを支える上で可用性は100%である必要は無いのかも知れないと言うことです。
アポロ13の場合は、見方によってはお金に糸目をつけないで、ただひたすらリスクを回避するために冗長化を図ったと言えます。しかし、一般の企業でこのようなことをすれば会社は利益を上げられず、競合他社との競争に勝てなくなり、ビジネスを継続することは出来なくなってしまいます。可用性管理と言うことでは、現代のIT運用にとってアポロ13は良いお手本とは言えないかも知れませんね。
次回はアポロ13から、IT運用の役割分担を考察してみたいと思います。
|