ラベル 保存総論 の投稿を表示しています。 すべての投稿を表示
ラベル 保存総論 の投稿を表示しています。 すべての投稿を表示

2017年8月25日金曜日

永続的識別子の20年(文献紹介)

Klump, J. & Huber, R., (2017). 20 Years of Persistent Identifiers – Which Systems are Here to Stay?. Data Science Journal. 16, p.9. DOI: http://doi.org/10.5334/dsj-2017-009

インターネット上の情報のいわゆる「リンク切れ(Link rot)」に対する学術情報分野からの解決策として、様々な「永続的識別子(Persistent Identifiers, 以下 PID)」が考案されるようになってから、既に20年余り経つ。PIDの基本的な考え方は、識別の対象の「アイデンティティ」と「ウェブ上の所在情報」を分けることにあった。しかし、皮肉なことに、PIDを管理する組織の持続性を原因として、あるPID体系全体が存続の危機に陥ることもある。本文献は、主要なPIDの過去20年を振り返り、PID運営の成功と失敗の条件を考察したものである。以下、段落ごとに抄訳する。

●PIDの導入状況
研究データリポジトリのレジストリであるre3data.org (http://www.re3data.org)のデータに基づき、PIDの導入状況を見ると、2015年12月に登録されていた1381機関中475機関が何らかのPIDを採用している。複数採用している機関もある。「DOI」「Handle」「PURL 」「URN」「 ARK」「 その他」のうち圧倒的に採用数が多いのはDOIだが、「その他」も相当数あることが注目される。領域特有のPIDがあることを示唆する。機関リポジトリでHandleの採用例が多いのは、DSpaceの機能に組み込まれていることも影響していると考えられる。

●危機の2015−2016年
2015から2016年にかけて存続の危機に陥ったPIDが、OCLCが維持してきたPURLとライフサイエンス分野で普及していたLSIDである。PURLは中央の管理組織や共通のレゾリューションシステムがないことが特徴でそのため、2014年にOCLCが資金援助を辞めたことで危機に陥ったが、2016年からInternet Archiveが運営を担うことになり、新たなレゾリューションシステムも導入されたことで息を吹き返した。現在re3data.orgに登録中16機関で利用されているが、PURLだけという機関は少数である。LSIDは、生物多様性情報学の分野の標準的なPIDとしてTaxonomic Database Working Group (TDWG) が維持していたが、やはり中央の管理が緩く、DNSをベースとした複雑なレゾリューションシステムを用いていた。2016年にシステムの維持が難しくなり、レゾリューションサービスが停止、2ヶ月後に暫定的な対応として
再びサービスが提供されるようになったが、単純な記号管理(Cool URI)への移行が検討されている。

●生き残るPIDの条件
「信頼できるリポジトリ」の基準(criteria)が提唱され始めたのと同じ2008年頃から「信頼できるPID」の基準も提唱され始めた。Bütikoferは技術的・組織的基準を提示し、Duerrは使いやすさ(ユーザビリティ)を重視した。両者の結論には異なる部分もあるが、共に管理組織の持続性を重視している。管理組織の持続性の維持のために必要なのは、運営の透明性だ。運営の議論は公開されていない場合が多いが、付与促進の裏でエグジット戦略が議論されていたりするのは欺瞞である。リゾルバの要否については、今のところ「要」である。というのも、まだ完全なセマンティックウェブの世界が実現されていないからだ。

科学の記録の要素を永続的に、人間にも機械にもわかる方法で識別するということがPIDの重要な役割であるが、これは純粋に技術的な課題というよりも、社会契約(social contract)の問題である。しかしながら、あるPIDシステムに依拠したユーザコミュニティが広がるにつれて、このような社会契約が自ずと強化されると考えるのは幻想だ。商業学術出版社の後ろ盾があるDOIシステムが、現在最も成功している PIDであり、国立図書館の後ろ盾のURNやARKはマイナーな存在に留まっている。商業的な仕組みにうんざりしている一部の学術情報コミュニティのメンバーには呑み込みがたい事実かもしれないが、ビジネスモデルがPIDシステムに不可欠の要素であり、サステイナブルな  PIDは無料ではないのである。(抄訳以上)

 なお、最近の研究データやPIDの動向分析の文献によくre3data.orgの登録データが使われているな、と思う。例えば、これも→https://doi.org/10.1045/march2017-kindling







2010年5月3日月曜日

Tessella社

Tessellaは、英国国立公文書館のファイルフォーマットデータベースPRONOMの作成やEUのプロジェクトのパートナーとして、電子情報の長期保存に古くから係わってきた企業です。英国国立公文書館、オランダ国立公文書館のほか、マレーシア国立公文書館、Wellcome Trust Library(イギリス拠点の医学情報図書館)、英国国立図書館等にOAISに基づいた電子文書リポジトリシステムを提供しています。
今回のECA2010での発表は、EUの電子情報保存プロジェクトPlanetsの一環として構築された電子情報の技術情報リポジトリの構築方法についての説明でした。技術情報リポジトリは電子情報の保存プロセスを自動化するための出発点であり、(1)旧式化を定義する要素、(2)マイグレーションツール及びエミュレーターに関する情報、(3)マイグレーションの成功度を図る指標、の三つを機械可読な形式で蓄えているとのことです。(1)については、各ファイルの機能レベル(例:更新履歴、パスワード機能)まで含めたかなり詳細なものになっています。それらの情報が、旧式化ファイルの抽出と処理プロセスの選択に必要だからです。成果はPlanetsの後継連合体であるOpen Planets Foundationのコア・レジストリへ引き継がれるとのことです。Tesselaの展開するOAIS準拠システムの詳細はhttp://www.digital-preservation.com/wp-content/uploads/DigitalArchiving.pdfを参照のこと。(新規の保存計画に係る機能ついては "Active Preservation" の項に詳しいです。)

2008年11月8日土曜日

Preserving Digital Information: デジタル情報の保存

このブログもそうだけど、デジタルな情報は「消えて失われやすい」のだそう。ウェブサイトなんか、更新されてしまえば古い情報はもう見られない。10年前にもらったメール、とってある人いるのかな?

それでいいのか?  と考えている人たちがいるようです。

H.M.Gladneyという人が書いたPreserving Digital Informationという本を読みました。(Springer, 2007)デジタル情報の「保存」について論じた本です。

Gladney氏は、IBMでキャリアを積んだ後、デジタル情報の保存の専門家として、コンサルティング業をやっているらしい。経歴はこちら→http://home.pacbell.net/hgladney/
DDQ(Digital Document Quarterly)という季刊誌をオンラインで発信中。