とはいえ、他社のローコストなサーバやx86サーバを扱っているITエンジニアからすれば、これらの仕掛けはいささか大げさのようにも見えるかもしれない。メモリやプロセッサーが壊れることなど本当にあるのだろうか? DPRやDMRは、ある意味マーケティング的なシンボルに過ぎないのではないか? といった見方もあるだろう。実のところ、メジャーな商用UNIXサーバでさえ、これらに相当するメカニズムをまったく搭載しないものが少なくないのだ。
だがハフ氏は、「HPではコンポーネントの故障率について独自の計算モデルを持っており、(高可用性機能は)そうした厳密な統計に基づくものだ」と説明する。「たとえばキャッシュ・メモリのソフト・エラーの発生確率は、メモリチップの設計をはじめ、個々のメモリ・セルのサイズ、動作電圧をベースに計算する。具体的には、(大気圏外から降り注ぐ)アルファ線が個々のセルに当たる確率や、当たった場合に影響を受けるセル上の半径、セルの酸化膜の厚さ、そしてアルファ線で生じる絶縁破壊電圧と動作電圧の差など、半導体物理レベルの検証を行う。その一方で、ソフト・エラーの確率は動作温度に比例して上昇するので、Integrityサーバ内部のエア・フローや動作温度も考慮に入れる。HPには、そうしたすべての検証を行うためのチームが揃っている」(同氏) |