「本質的に、我々は過去80年間にわたる最新の印刷術の歴史を扱ってきたことになるのです。」と、TIMEプロジェクトを指揮してきた HP C&I リッチメディアのソリューションデリバリマネージャ、Jeff Hagerは述べています。
HPには、この分野でこれまで実現されてきたプロセスの自動化を、 さらに可能な限り押し進めたいという考えがありました。この仕事には技術と組織の両面で非常に複雑な問題が伴いました。 アーカイブとして保存されている記録は、50万ページ以上と物理的に膨大である上、時代と共にスタイルも変化しているため、動く標的をデジタル化の対象とするようなものでした。
この業務を遂行するため、HPでは、コンサルティング・インテグレーション(C&I)グループとHP研究所がこれまでにない緊密な協力体制を組み、どちらのグループも通常の守備範囲を越えて、全員が大きなプレッシャーの中で完成を目指しました。 HP研究所のプログラムマネージャGiuliano Di Vitantonioは幾度となく当時を振り返ってこう語っています。「まったくむちゃくちゃでした。 眠らない日が、何週間もありました。」
しかしながら技術革新と徹底したプロセス管理によって、TIMEチームはその年の暮れまでに、ほぼ100パーセントの精度でアーカイブ全体の処理を終えていました。現在このコレクションは、1923年から現在に至る歴史の広大なオンライン・レコードとしてTIME.comから提供されています。
アーカイブには各号の表紙、写真、266,000を超えるオリジナルの記事が含まれており、大恐慌、ビートルズの米国デビュー(ちなみにそのタイトルは「長髪の4人組」です)から、1945年国連の誕生、ヒトゲノムの遺伝子地図作成競争まで多岐に渡っています。
これまで、雑誌のアーカイブをデジタル化するには、それを手でタイプしなおすしかありませんでした。 代わりにOCR(光学式文字認識)ソフトウェアを利用すればよいではないかと思われるかもしれません。 しかし最新のOCRソフトウェアでも精度は99.5パーセントで、しかも認識したテキストブロックを完全な記事に組み立てなおすインテリジェンス機能がありません。 新しい技術を使ってこの問題を解決する方法はあるでしょうか。
HP研究所の研究者は、MIT Pressの仕事での経験を基に3段階のソリューションを考案しました。 まず、複数のOCRエンジンによってデジタルスキャンした雑誌の各ページの中から、開発した一連のアルゴリズムを使って一番良い出力を選択しました。
これにより、OCRの精度が通常の期待値よりも上がりました。 ただし、とりわけ記事が複数ページにまたがるときには、依然として多くのエラーを修正する必要がありました。
第2段階で、研究所チームは構成要素から記事を再構築しました。 この作業のために、広告や写真など各ページの記事テキスト以外のセクションを認識して、除外することができるソフトウェアエンジンを作成しました。 次にソフトウェアを使い、テキストブロックの正しいシーケンスを判断するためインテリジェント推量を行いました。
研究所のDi Vitantonioによれば、この時点でなんとか80パーセントの精度には到達できました。 テキストシーケンス間のリンクは、ページのグラフィック表示に示される移動可能な矢印で識別されました。
100パーセントの精度を達成するため、第3段階では、HP研究者が設計し、C&I コンサルタントが開発したツールを採用しました。 C&I スタッフはこのツールを使い、ソフトウェアが間違って推量した記事の流れを再形成するため、ゾーンを手動でリンクしました。
過去80年間に雑誌がたどった変遷は、TIMEアーカイブのデジタル化を一層困難にしました。 初期に刊行された雑誌には今では存在しない書体が使用されており、汚れて読みづらくなったページも多数ありました。 最近刊行された雑誌は、印刷は鮮明ですが、大胆な絵画的構図を採用したものが多く、テキスト要素を写真や絵と区別するのがたいへんでした。
「本質的に、我々は過去80年間にわたる最新の印刷術の歴史を扱ってきたことになるのです。」と、TIMEプロジェクトを指揮してきたHP C&I リッチメディア、ソリューションデリバリマネージャ、Jeff Hagerは述べています。
作業は6フェーズで行われました。それぞれのフェーズにはチェックポイントがあり、コンテンツが品質標準を満たさない場合は1つ前のステージに戻されました。 そのプロセス管理は、大きなロジスティックスの面での挑戦でした。
オリジナルの雑誌はニュージャージー州ブリッジウォーターのC&I がスキャンし、得られたTIFデータファイルは、HP研究所デジタルコンテンツリマスタリングプログラムの本拠地である、スペインのHP研究所バルセロナリサーチオフィスに送られました。 処理されたデータは、手で補正するためブリッジウォーターに送り返されました。
「処理するコンテンツは、古くて、乱雑で、不完全です。 そのため最後は人の手が必要になるのです。」とHP研究所の研究者John Burnsは述べています。
これはHPが通常行う類の仕事ではないとBurnsは語っています。 HP研究所は、TIMEの仕事、すなわちこの場合44日間サーバを稼働し続けることが求められたデータ処理にあたって、これまで以上に大きな役割を担いました。
「これは、我々が事業部またはビジネスユニットに移管して、彼らが我々の技術を使って実行した仕事とは異なります。我々は、すべての業務に実際にかかわったのです。」とDi Vitantonioは誇らしげに語ります。
C&IのJeff Hagerによれば、研究所がプロジェクトの実作業を行なっていたとき、C&Iは通常よりもはるかに多くのソフトウェア開発を求められていました。
「ほんとうにすばらしい共同作業でした」とHagerは語ります。 プロジェクトでは、チームの誰もが、急な依頼を受け、厳しい顧客ニーズに合わせてソリューションをすばやくカスタマイズしなければなりませんでした。 これは決して容易なことではありませんでした。幾度となく、どうすべきか、どんな方法をとるか、そのためのツールをどのように構築するか、さらにはそのすべてを一度に実行するにはどうすればよいかを見つけ出そうとしていました。」
「一番すばらしかったのは、これを実現するためにHPのさまざまな部門が緊密な共同作業を行ったことです。」とHagerの上司であり、HPシステムソリューションVPで、HP側の代表としてTIMEとの交渉役を勤めたDouglas McMahonは述べています。
「TIMEとHPとの関係により、人、プロセス、技術を土台としたソリューションが生まれ、この仕事をやり遂げることができたのです。」
新たにデジタル化したコンテンツを主要な呼び物として、TIME.comのアーカイブが昨年12月末から始動しています。 TIME.comへの来訪者は、1923年から現在までの雑誌の全出力を検索できるほか、表紙の検索やテーマ別に分けられたストーリーのブラウズも可能です。
購読者のアーカイブへのアクセスは、無料です。 そのほかのユーザは、小額の利用料の支払いを求められるか、アクセスを記事の要約に制限されます。
HPでは現在、デジタルコンテンツ・リマスタリングソリューションを他の出版会社に商品として提供することを検討しています。 一方HP研究所チームは、研究者がコンテンツ・ドリブン・コンピューティングと呼ぶ分野で次の挑戦を検討し、デジタルコンテンツを扱うITベースのソリューションを作成する機会を模索しています。
「我々の研究が最終的に製品またはサービスとなって人々に使用されるのを見たときに、とても達成感を感じます。」とDi Vitantonioは述べています。 「これこそ、この仕事の醍醐味なのです。」
(画像をクリックすると大きな画像が表示されます)