2010年12月7日火曜日

オランダの新聞デジタル化プロジェクト

オランダの新聞のデジタル化は、オランダ国立図書館(KB)が一手に引き受けてDDD(Databank of Daile Digital Newspapers) というプロジェクトで行っています。KBのご自慢プロジェクトのひとつで、何度か職員の方から説明を受けました。

まず、基本的なこととして、デジタル化は「プロジェクト」として行われ、プロジェクトマネージャーが設置されます。デジタル化までは大きく二つのステップです。

(1)Selection and Preparation (選択と準備)
デジタル化範囲の決定と準備作業を行います。デジタル化対象について、意思決定します。必要に応じて外部の意見も聴取します。意思決定の後は、瑕疵のないコピーを揃え、保管場所を整え、デジタル化に伴う定型作業のワークフローをマニュアル化することがメインです。新聞については、原資料の劣化がかなり進んでいることを考慮する必要があります。既にマイクロ化されている場合は、その利用も検討します。

(2)Digitization(デジタル化)
新聞のデジタル化は、画像作成、OCR、メタデータ作成の3つの作業から成ります。新聞のように雑多な情報が入り混じり、利用者の利用目的も幅広いコンテンツについては全文検索ができないと使い勝手が悪いので、OCRによってテキストデータが作成されますす。(余談:このときの苦労経験が現在EU単位でのOCR精度向上プロジェクトIMPACTにつながっています。)また、充実したメタデータが付与されます。記述メタは、他のデジタル化済資料群と同じくダブリンコアに基づきます。必要に応じて要素を足します。たとえば、朝刊or夕刊の別、地方版の地方等が追加されます。その他、新聞については特に、構造メタ(Structural Metadata) とレイアウト・メタ(Layout Metadata)というのが重要視されます。構造メタはMPEG21-DIDLに基づきます。第何刷の何ページ目に掲載された記事か、という各記事の(概念上の)位置を特定する階層関係が記述されます。レイアウト・メタはALTOという基準です。各記事の、各ページ(平面)における物理的な位置を記述します。新聞は異なる情報の配列が複雑に入り組んでいるので、全文検索の検索結果をハイライトで表示するのに必要だそうです。

KBサイトによるプロジェクトの紹介はこちら>http://www.kb.nl/hrd/digi/ddd/index-en.html