Klump, J. & Huber, R., (2017). 20 Years of Persistent Identifiers – Which Systems are Here to Stay?. Data Science Journal. 16, p.9. DOI: http://doi.org/10.5334/dsj-2017-009
インターネット上の情報のいわゆる「リンク切れ(Link rot)」に対する学術情報分野からの解決策として、様々な「永続的識別子(Persistent Identifiers, 以下 PID)」が考案されるようになってから、既に20年余り経つ。PIDの基本的な考え方は、識別の対象の「アイデンティティ」と「ウェブ上の所在情報」を分けることにあった。しかし、皮肉なことに、PIDを管理する組織の持続性を原因として、あるPID体系全体が存続の危機に陥ることもある。本文献は、主要なPIDの過去20年を振り返り、PID運営の成功と失敗の条件を考察したものである。以下、段落ごとに抄訳する。
●PIDの導入状況
研究データリポジトリのレジストリであるre3data.org (http://www.re3data.org)のデータに基づき、PIDの導入状況を見ると、2015年12月に登録されていた1381機関中475機関が何らかのPIDを採用している。複数採用している機関もある。「DOI」「Handle」「PURL 」「URN」「 ARK」「 その他」のうち圧倒的に採用数が多いのはDOIだが、「その他」も相当数あることが注目される。領域特有のPIDがあることを示唆する。機関リポジトリでHandleの採用例が多いのは、DSpaceの機能に組み込まれていることも影響していると考えられる。
●危機の2015−2016年
2015から2016年にかけて存続の危機に陥ったPIDが、OCLCが維持してきたPURLとライフサイエンス分野で普及していたLSIDである。PURLは中央の管理組織や共通のレゾリューションシステムがないことが特徴でそのため、2014年にOCLCが資金援助を辞めたことで危機に陥ったが、2016年からInternet Archiveが運営を担うことになり、新たなレゾリューションシステムも導入されたことで息を吹き返した。現在re3data.orgに登録中16機関で利用されているが、PURLだけという機関は少数である。LSIDは、生物多様性情報学の分野の標準的なPIDとしてTaxonomic Database Working Group (TDWG) が維持していたが、やはり中央の管理が緩く、DNSをベースとした複雑なレゾリューションシステムを用いていた。2016年にシステムの維持が難しくなり、レゾリューションサービスが停止、2ヶ月後に暫定的な対応として
再びサービスが提供されるようになったが、単純な記号管理(Cool URI)への移行が検討されている。
●生き残るPIDの条件
「信頼できるリポジトリ」の基準(criteria)が提唱され始めたのと同じ2008年頃から「信頼できるPID」の基準も提唱され始めた。Bütikoferは技術的・組織的基準を提示し、Duerrは使いやすさ(ユーザビリティ)を重視した。両者の結論には異なる部分もあるが、共に管理組織の持続性を重視している。管理組織の持続性の維持のために必要なのは、運営の透明性だ。運営の議論は公開されていない場合が多いが、付与促進の裏でエグジット戦略が議論されていたりするのは欺瞞である。リゾルバの要否については、今のところ「要」である。というのも、まだ完全なセマンティックウェブの世界が実現されていないからだ。
科学の記録の要素を永続的に、人間にも機械にもわかる方法で識別するということがPIDの重要な役割であるが、これは純粋に技術的な課題というよりも、社会契約(social contract)の問題である。しかしながら、あるPIDシステムに依拠したユーザコミュニティが広がるにつれて、このような社会契約が自ずと強化されると考えるのは幻想だ。商業学術出版社の後ろ盾があるDOIシステムが、現在最も成功している PIDであり、国立図書館の後ろ盾のURNやARKはマイナーな存在に留まっている。商業的な仕組みにうんざりしている一部の学術情報コミュニティのメンバーには呑み込みがたい事実かもしれないが、ビジネスモデルがPIDシステムに不可欠の要素であり、サステイナブルな PIDは無料ではないのである。(抄訳以上)
なお、最近の研究データやPIDの動向分析の文献によくre3data.orgの登録データが使われているな、と思う。例えば、これも→https://doi.org/10.1045/march2017-kindling
2010年5月3日月曜日
Tessella社
Tessellaは、英国国立公文書館のファイルフォーマットデータベースPRONOMの作成やEUのプロジェクトのパートナーとして、電子情報の長期保存に古くから係わってきた企業です。英国国立公文書館、オランダ国立公文書館のほか、マレーシア国立公文書館、Wellcome Trust Library(イギリス拠点の医学情報図書館)、英国国立図書館等にOAISに基づいた電子文書リポジトリシステムを提供しています。
今回のECA2010での発表は、EUの電子情報保存プロジェクトPlanetsの一環として構築された電子情報の技術情報リポジトリの構築方法についての説明でした。技術情報リポジトリは電子情報の保存プロセスを自動化するための出発点であり、(1)旧式化を定義する要素、(2)マイグレーションツール及びエミュレーターに関する情報、(3)マイグレーションの成功度を図る指標、の三つを機械可読な形式で蓄えているとのことです。(1)については、各ファイルの機能レベル(例:更新履歴、パスワード機能)まで含めたかなり詳細なものになっています。それらの情報が、旧式化ファイルの抽出と処理プロセスの選択に必要だからです。成果はPlanetsの後継連合体であるOpen Planets Foundationのコア・レジストリへ引き継がれるとのことです。Tesselaの展開するOAIS準拠システムの詳細はhttp://www.digital-preservation.com/wp-content/uploads/DigitalArchiving.pdfを参照のこと。(新規の保存計画に係る機能ついては "Active Preservation" の項に詳しいです。)
今回のECA2010での発表は、EUの電子情報保存プロジェクトPlanetsの一環として構築された電子情報の技術情報リポジトリの構築方法についての説明でした。技術情報リポジトリは電子情報の保存プロセスを自動化するための出発点であり、(1)旧式化を定義する要素、(2)マイグレーションツール及びエミュレーターに関する情報、(3)マイグレーションの成功度を図る指標、の三つを機械可読な形式で蓄えているとのことです。(1)については、各ファイルの機能レベル(例:更新履歴、パスワード機能)まで含めたかなり詳細なものになっています。それらの情報が、旧式化ファイルの抽出と処理プロセスの選択に必要だからです。成果はPlanetsの後継連合体であるOpen Planets Foundationのコア・レジストリへ引き継がれるとのことです。Tesselaの展開するOAIS準拠システムの詳細はhttp://www.digital-preservation.com/wp-content/uploads/DigitalArchiving.pdfを参照のこと。(新規の保存計画に係る機能ついては "Active Preservation" の項に詳しいです。)
2010年5月1日土曜日
ECA 2010
4月28日から30日の日程でジュネーブで開催された第8回ヨーロッパ・デジタル・アーカイビング会議(Conference on Digital Archiving)に参加してきました。いろいろ書きたいことはあったのですが、700名強のアーキビストたちとハイテンションな議論に揉まれてかなり疲労しており、何も手につかない状態なので、ちょっと気分転換に出かけてこようかと…。その前に、大雑把な雰囲気のみ。
日本では国会図書館がやっている政府系ウェブサイトの収集、ヨーロッパの多くの国では国立公文書館がやっています。従来の公文書の移管についての考え方だと作成から20年なり30年なり経てから公文書館に移管されるのですが、電子文書については、そんなに待っていたらリンクは切れるわ、ファイル形式は旧式化するわ、天変地異でファイルが失われるかもしれないわで保存上大きな問題なので、「早期介入」が必要ですね、というのが1点。イギリスやオランダの国立公文書館が「早期介入」の自分たちの取組事例を紹介していました。
もうひとつは、これまでどちらかというと「保存」に重点があったアーカイブ界ですが、これからはオンラインアクセスを積極的に考えていきましょう。デジタル化された資料はEuropeanaで一部提供されていますが、アーカイブ資料の多様性(と膨大な未整理文書)を考えると一足飛びにデジタル化を急速に進めるのは難しいし、アーカイブの伝統であるコンテキスト情報や文書の構造についての情報などの価値も未来に伝えたい。そうするとEuropeanaへの協力は協力として、国内レベルで二次情報も含めたポータルサイトを整備したい。あれあれ、となると、記録管理標準の適用について、公文書館間で足並みをそろえて、機械処理が可能なメタデータ標準を作っていく必要がありますね、というのが2点目。
3つ目は、EUの電子情報保存プロジェクトPlanetsの終期が迫り、成果が出揃ってきたのでその報告でした。この4年間で、電子情報保存プロセスの自動化については、技術情報リポジトリの構築と保存計画の策定の分野で大きな進歩があったようです。
登録:
投稿 (Atom)