Jump to content 日本-日本語
日本HPホーム 製品 & サービス サポート & ドライバー ソリューション ご購入方法
≫ お問い合わせ


会社情報 > ニュースルーム > カバーストーリー バックナンバー

TIMEでたどる歴史

会社情報

HPについて
プレスリリース
エグゼクティブ・チーム
社会・環境への取り組み
HP研究所
アナリスト向け情報(英語)
投資家向け情報
日本HPサイトマップ
By Simon Firth


「本質的に、我々は過去80年間にわたる最新の印刷術の歴史を扱ってきたことになるのです。」と、TIMEプロジェクトを指揮してきた HP C&I リッチメディアのソリューションデリバリマネージャ、Jeff Hagerは述べています。


クイックリンク
 
新技術   緊密な共同作業
100パーセントを目指して   アーカイブオンライン
動く標的   今後の予定
ロジスティックスの挑戦   イラストレーションギャラリー

昨年はじめ、HPは、世界で最も広く読まれている雑誌の1つであるTIME誌の80年分のデジタル化に着手しました。

■ 関連リンク

世界で利用が進んでいる学術用Digital Archiving Solutionと活用事例のご紹介
イラストレーションギャラリー
TIMEアーカイブ 米国のサイトへ

■ TIME用
    HPソリューション

HP サーバ
ITサービス
HP OpenView
HP ストレージ
Time Archive plus HP

HPには、この分野でこれまで実現されてきたプロセスの自動化を、
さらに可能な限り押し進めたいという考えがありました。この仕事には技術と組織の両面で非常に複雑な問題が伴いました。 アーカイブとして保存されている記録は、50万ページ以上と物理的に膨大である上、時代と共にスタイルも変化しているため、動く標的をデジタル化の対象とするようなものでした。

この業務を遂行するため、HPでは、コンサルティング・インテグレーション(C&I)グループとHP研究所がこれまでにない緊密な協力体制を組み、どちらのグループも通常の守備範囲を越えて、全員が大きなプレッシャーの中で完成を目指しました。 HP研究所のプログラムマネージャGiuliano Di Vitantonioは幾度となく当時を振り返ってこう語っています。「まったくむちゃくちゃでした。 眠らない日が、何週間もありました。」

しかしながら技術革新と徹底したプロセス管理によって、TIMEチームはその年の暮れまでに、ほぼ100パーセントの精度でアーカイブ全体の処理を終えていました。現在このコレクションは、1923年から現在に至る歴史の広大なオンライン・レコードとしてTIME.comから提供されています。

アーカイブには各号の表紙、写真、266,000を超えるオリジナルの記事が含まれており、大恐慌、ビートルズの米国デビュー(ちなみにそのタイトルは「長髪の4人組」です)から、1945年国連の誕生、ヒトゲノムの遺伝子地図作成競争まで多岐に渡っています。

 新技術

これまで、雑誌のアーカイブをデジタル化するには、それを手でタイプしなおすしかありませんでした。
代わりにOCR(光学式文字認識)ソフトウェアを利用すればよいではないかと思われるかもしれません。 しかし最新のOCRソフトウェアでも精度は99.5パーセントで、しかも認識したテキストブロックを完全な記事に組み立てなおすインテリジェンス機能がありません。
新しい技術を使ってこの問題を解決する方法はあるでしょうか。

HP研究所の研究者は、MIT Pressの仕事での経験を基に3段階のソリューションを考案しました。
まず、複数のOCRエンジンによってデジタルスキャンした雑誌の各ページの中から、開発した一連のアルゴリズムを使って一番良い出力を選択しました。

これにより、OCRの精度が通常の期待値よりも上がりました。 ただし、とりわけ記事が複数ページにまたがるときには、依然として多くのエラーを修正する必要がありました。

 100パーセントを目指して

第2段階で、研究所チームは構成要素から記事を再構築しました。 この作業のために、広告や写真など各ページの記事テキスト以外のセクションを認識して、除外することができるソフトウェアエンジンを作成しました。 次にソフトウェアを使い、テキストブロックの正しいシーケンスを判断するためインテリジェント推量を行いました。

研究所のDi Vitantonioによれば、この時点でなんとか80パーセントの精度には到達できました。 テキストシーケンス間のリンクは、ページのグラフィック表示に示される移動可能な矢印で識別されました。

100パーセントの精度を達成するため、第3段階では、HP研究者が設計し、C&I コンサルタントが開発したツールを採用しました。 C&I スタッフはこのツールを使い、ソフトウェアが間違って推量した記事の流れを再形成するため、ゾーンを手動でリンクしました。

 動く標的

過去80年間に雑誌がたどった変遷は、TIMEアーカイブのデジタル化を一層困難にしました。
初期に刊行された雑誌には今では存在しない書体が使用されており、汚れて読みづらくなったページも多数ありました。 最近刊行された雑誌は、印刷は鮮明ですが、大胆な絵画的構図を採用したものが多く、テキスト要素を写真や絵と区別するのがたいへんでした。

「本質的に、我々は過去80年間にわたる最新の印刷術の歴史を扱ってきたことになるのです。」と、TIMEプロジェクトを指揮してきたHP C&I リッチメディア、ソリューションデリバリマネージャ、Jeff Hagerは述べています。

 ロジスティックスの挑戦

作業は6フェーズで行われました。それぞれのフェーズにはチェックポイントがあり、コンテンツが品質標準を満たさない場合は1つ前のステージに戻されました。
そのプロセス管理は、大きなロジスティックスの面での挑戦でした。

オリジナルの雑誌はニュージャージー州ブリッジウォーターのC&I がスキャンし、得られたTIFデータファイルは、HP研究所デジタルコンテンツリマスタリングプログラムの本拠地である、スペインのHP研究所バルセロナリサーチオフィスに送られました。 処理されたデータは、手で補正するためブリッジウォーターに送り返されました。

「処理するコンテンツは、古くて、乱雑で、不完全です。 そのため最後は人の手が必要になるのです。」とHP研究所の研究者John Burnsは述べています。

これはHPが通常行う類の仕事ではないとBurnsは語っています。 HP研究所は、TIMEの仕事、すなわちこの場合44日間サーバを稼働し続けることが求められたデータ処理にあたって、これまで以上に大きな役割を担いました。

「これは、我々が事業部またはビジネスユニットに移管して、彼らが我々の技術を使って実行した仕事とは異なります。我々は、すべての業務に実際にかかわったのです。」とDi Vitantonioは誇らしげに語ります。

 緊密な共同作業

C&IのJeff Hagerによれば、研究所がプロジェクトの実作業を行なっていたとき、C&Iは通常よりもはるかに多くのソフトウェア開発を求められていました。

「ほんとうにすばらしい共同作業でした」とHagerは語ります。 プロジェクトでは、チームの誰もが、急な依頼を受け、厳しい顧客ニーズに合わせてソリューションをすばやくカスタマイズしなければなりませんでした。 これは決して容易なことではありませんでした。幾度となく、どうすべきか、どんな方法をとるか、そのためのツールをどのように構築するか、さらにはそのすべてを一度に実行するにはどうすればよいかを見つけ出そうとしていました。」

「一番すばらしかったのは、これを実現するためにHPのさまざまな部門が緊密な共同作業を行ったことです。」とHagerの上司であり、HPシステムソリューションVPで、HP側の代表としてTIMEとの交渉役を勤めたDouglas McMahonは述べています。

「TIMEとHPとの関係により、人、プロセス、技術を土台としたソリューションが生まれ、この仕事をやり遂げることができたのです。」

 アーカイブオンライン

新たにデジタル化したコンテンツを主要な呼び物として、TIME.comのアーカイブが昨年12月末から始動しています。 TIME.comへの来訪者は、1923年から現在までの雑誌の全出力を検索できるほか、表紙の検索やテーマ別に分けられたストーリーのブラウズも可能です。

購読者のアーカイブへのアクセスは、無料です。 そのほかのユーザは、小額の利用料の支払いを求められるか、アクセスを記事の要約に制限されます。

 今後の予定

HPでは現在、デジタルコンテンツ・リマスタリングソリューションを他の出版会社に商品として提供することを検討しています。
一方HP研究所チームは、研究者がコンテンツ・ドリブン・コンピューティングと呼ぶ分野で次の挑戦を検討し、デジタルコンテンツを扱うITベースのソリューションを作成する機会を模索しています。

「我々の研究が最終的に製品またはサービスとなって人々に使用されるのを見たときに、とても達成感を感じます。」とDi Vitantonioは述べています。 「これこそ、この仕事の醍醐味なのです。」

 イラストレーションギャラリー

(画像をクリックすると大きな画像が表示されます)

 
 
 
 
 
印刷用画面へ印刷用画面へ
プライバシー ご利用条件・免責事項 ウェブマスターに連絡