|
自動化による障害対応の劇的なスピード化
「HP Operations Orchestration(HPOO)」は、RBAツールとして最も実績のある製品のひとつだ。Run Book Automationは、複数のツールに指示を出して、システムを横断するような大規模な作業フローを自動実行させるような環境で真価を発揮する。単純な作業フローの自動化であれば、コマンドスクリプトやジョブスケジューラで対応できるケースもあるが、フローの標準化・再利用化によりシステム全体の効率化を高めることができるのはRBAツールならではの特長と言える。大規模システムやデータセンター運用を中心に導入が進んでいるのは、こうした理由からだ。
「私たちの大きな資産は、長年のシステム構築・運用の経験で培ったノウハウです。たとえば、システムの障害検知から復旧までの手順を数千種にわたってドキュメント化していますが、これらをHPOO上で定義すればインシデント発生からクローズまでのフローを自動化することができます」(原部長)
HPOOによる自動化の導入で障害対応のオペレーションはどう変わり、どれだけのスピード化が可能になったのだろうか。まず、従来の手順について、リモートオペレーション企画グループの赤羽雄一郎リーダーは次のように紹介する。
 |
 |
 |
CTCテクノロジー株式会社 テクニカルサポート第2本部 リモートオペレーションセンター ROC企画グループ グループリーダー 赤羽 雄一郎氏 |
 |
「アカウントエンジニアが障害発生の通知を受けると、リモートでシステムに接続してログを収集し、並行して構成管理のデータベースを参照しつつ事態の収拾にあたります。この際、必要に応じて作業手順書を確認することもあるでしょう。復旧が完了するとインシデント管理のデータベースに作業内容を登録します」
これら一連の作業は、すべてアカウントエンジニアが手作業で行うため、たとえ軽微な障害でも一定の時間を要していた。それでは、HPOOによって自動化されたオペレーションではどうか。
「対応が必要な障害が検知されると、HPOOは障害の発生した機器に対して定義されたフローで復旧を試みます。作業が正常に終了すると、HPOOは収集したログやステータス情報をデータベースに自動登録します」(赤羽リーダー)
自動化によってシステムの停止時間は劇的に短縮される。さらに、効率化だけでなくログ取得と復旧作業を同時に進められることも自動化の大きなメリットだ。監査への対応も容易になる。また、人手による作業はどうしてもミスの可能性を残すことになるが、HPOOによる自動化はミスを排除することで手戻りのない確実な復旧を可能にした。
「たとえば、30分を要していたWebサービスのプロセス復旧作業を、わずか2分にまで短縮できることが確認されました」と赤羽リーダーはその成果を強調する。
「もし自動復旧ができなかった場合、または高度な判断が求められるような作業は、HPOOが収集したログや構成情報をもとにアカウントエンジニアが作業を行います。一次対応が終わった時点から引き継がれますので、効率良く復旧作業だけに注力できるようになりました」(赤羽リーダー)
一次対応の自動化は、アカウントエンジニアの工数削減・コスト削減という課題の解決にも奏功した。
原部長は「自動化した定型的な作業は一次対応に該当する範囲です。ハイスキルなエンジニアでも30分、経験の浅いエンジニアでも30分というように、資質や能力を問わず一定時間を拘束してしまうものでした。HPOOの導入によって作業効率が改善され、アカウントエンジニアの生産性を大きく向上させることができました」と評価する。
HPOOによるRBAでお客様システムへの対応が自動化されたリモート・オペレーション・センター(ROC)
[拡大画像を表示]
|
 |
「ROCポータル」で顧客への情報開示をリアルタイム化
 |
 |
 |
 |
CTCテクノロジー株式会社 テクニカルサポート第2本部 リモートオペレーションセンター ROC企画グループ 中原 博司氏 |
 |
|
 |
 |
 |
CTCテクノロジー株式会社 テクニカルサポート第2本部 リモートオペレーションセンター ROC開発グループ 濱本 祐輔氏 |
 |
|
 |
HPOO導入と並行して、構成情報データベースCMDB(Configuration Management Database)とCTCテクノロジー独自の運用ノウハウのナレッジデータベースの統合も進められた。これにより、監視、運用、保守それぞれのサービス提供に必要なすべての情報を、一元的に管理・参照できる仕組みが構築された。
「この『統合データベース』により、お客様システムの稼働状況や障害状況、作業状況、それぞれの履歴に関する情報などを24時間リアルタイムで提供可能になりました。お客様は、必要な情報をいつでも『ROCポータル』にてご覧いただけます」とリモートオペレーション企画グループの中原博司氏は語る。
HPOOは、管理対象システムの構成情報収集と更新にも活用されている。リモートオペレーションシステム開発グループの濱本祐輔氏は次のように紹介する。
「運用サービス業務は、お客様システムの構成情報を入手するところから始まります。従来は、お客様から提供されたドキュメントをもとに手作業で機器の情報を収集するようなケースもありましたが、現在はHPOOによって構成情報の収集と監視項目のテンプレート生成を自動化しています。これにより、お客様へのサービス提供が格段にスピード化されました」
先述したように、運用段階でHPOOが実行したプロセス、つまり顧客システムへのアクセス履歴や操作履歴もすべて自動的に統合データベースに書き込まれる。
「お客様からお預かりしているシステムに障害が発生した場合には、RBAで取得したログなどの情報を『ROCポータル』のインシデント画面で確認できます。インターネット経由ですからお客様と状況の共有が容易になり、次の作業へのより素早い対応も期待できます。かつては運用サービスに関して、ブラックボックスで何をやっているのかわからない、という指摘を受けたこともありましたが、『統合データベース』と『ROCポータル』によってお客様へリアルタイムに情報が開示され、私たちの業務も透明化されました」(中原氏)
|