2017年8月29日火曜日

Marco de Niet 氏

調査と標準化活動を通してヨーロッパ内のMLA連携とEuropeanaの運営に大きく貢献している組織DENを11年間率いてきた、Marco de Niet氏の退陣挨拶。

http://www.den.nl/blog/bericht/5984

在任中の最も大きな成果として誇りにしているのがENUMERATE。「歴史の公共性」, 「ユーザから見るとアーカイブズとミュージアムはとても似ている」など言及。

9月から、ライデン大学図書館の副館長に就任。

2017年8月28日月曜日

調査リポート:Europeanaを各種オンライン文化資源サービスと比較するとどのような特徴があるか(2016)

私が崇拝する(?)DENから出た最近の調査リポート。
Europeana as online cultural information service
https://pro.europeana.eu/files/Europeana_Professional/Publications/europeana-benchmark-report-sep-2016.pdf

Europeanaを他の同様のサービス(有償無償、民間公共問わず)と比較してどのような特徴があるかを分析したもの。調査対象となったサービスは下図のものを含め19種。




結果をざっくり言うと、Europeanaは、他のサービスと比較して、双方向性が「高」、信頼性が「中の下」、使いやすさが「中」。

後半は、どのようにこの調査を行ったか、元になったデータと方法論の話で、ここがまた興味深い。

調査リポート:The Value of Europeana (2013)

Europeanaは、2008年に、EU内の図書館、文書館、博物館、ギャラリーが所有するデジタルコンテンツのサービスプラットフォームとして構築された。

2013年にEUのデジタルサービス基盤向けの予算が大幅削減された時、Europeana事業の継続も危ぶまれた。(参考:https://jipsti.jst.go.jp/johokanri/sti_updates/?id=6067)2008年から2014年を対象とした初期の助成が終了するにあたり、2015年以降の資金獲得のために
外部調査機関がEuropeana事務局の委託を受けて作成したリポートがある。少し古いが、同様のサービスを日本でやるとした場合に、計画と評価に関して得るところがあるかもしれないので、ざっくり紹介。

SEO Economic Research. The Value of Europeana (2013).
http://pro.europeana.eu/files/Europeana_Professional/Publications/Europeana%20Strategy%202020-%20Value%20assessment%20SEO.pdf


まず、この調査リポートの調査課題は、下記の通り。

2015年から2020年にかけてEuropeanaのサービスとインフラを維持・拡大するために継続的な投資をすることの社会経済的価値は何か。

コストは当時策定中のEuropeana Strategic Business Plan 2015-2020に基づき、201511日時点での純現在価値(NPV)を5370万ユーロとして計算したそう。

●経済効果
リポートでは、以下5つのユーザグループについて、記載する算出方法に基づき経済効果を分析。

  1. Europeanaで提供されるサービスやインフラはオープンソースであり、これらを利用しているGLAM(ギャラリー、図書館、文書館、博物館)は数百に上る。これらのツールは各機関における一般ユーザ、研究ユーザとのコミュニケーション改善をもたらすと同時に、サービスやインフラの開発コストを削減した。経済効果の算出方法: デジタル化と情報通信システムに関する支出の推定削減値(%)
  2. 一般市民もまた恩恵を受けている。ヨーロッパ内外のアートや文化、文化遺産に関心のある市民がEuropeanaのウェブサイトを訪れ、電子展示会やテーマごとのアクセスポイント(例: Europeana 1914-1918, Europeana 1989)を訪れている。また、ソーシャルメディアでEuropeanaをフォローしたり、Europeanaのアプリをダウンロードしたり、イベントに参加したりしている。経済効果の算出方法:Europeanaウェブサイト、電子展示会、ソーシャルメディアの閲覧時間、Europeanaのオフライン展示会やイベントの滞在時間、各機関のオフライン、オンラインの訪問者増加率(%)
  3. 第三に利益があるのは観光客である。Europeanaが提供するデータベースを用いて作成されたウェブサイト、アプリ、ガイドブックを使っているかもしれない。アートや文化資源に関する情報が入手しやすくなることは、ヨーロッパの魅力向上に役立ち、特に従来あまり知られてこなかった地域や文化遺産の魅力を伝え、集客を図ることができる。経済効果の算出方法:滞在日数または滞在中の支出の推定増加率
  4. 第四のグループは、いわゆる「クリエイティブ・インダストリー」と言われるセクターである。例えば、アートやカルチャー、文化遺産や旅情報に関する本を制作する出版社、歴史的な情報を求めているジャーナリスト、リサーチを行うアーティストやデザイナー、またメタデータを用いるゲームやアプリの開発者などは機械可読性の高いメタデータサービスや、パートナー機関からの一次情報入手により利益を得る。経済効果の算出方法:トップ・ダウン・ビジネスケース
  5. 最後のグループは教育機関と研究者である。デジタルコンテンツへのアクセス向上は教材とeラーニングツール作成のためのコスト削減及び品質向上、ひいては教育の質向上に役立つかもしれない。経済効果の算出方法:教育と研究におけるコスト削減、教育と研究におけるアウトプットの向上

このうち、1と3は、金銭的な定量化がしやすく、2は金銭的ではないものの定量化が容易。4と5は、少なくとも調査時点では根拠となる数値が得難く、定量化しにくいものでした。

後半では、いわゆる「市場の失敗」が存在する、芸術、文化、遺産の領域で、Europeanaのような存在が必要な理由(政府の介入が必要な理由)が大きく6点述べられる。

  • Europeanaは取引コスト(文化遺産や文化情報の発見コスト、また潜在的には第三者に対するライセンシング・コスト)を削減する。これは、クリエイティブ・インダストリーやアプリ開発者、文化遺産についての情報を探す消費者や研究者に波及効果がある。利益が発生しても、個々の利益に対しては相対的に高くつく可能性のある取引コストに鑑みた場合に、ユーザや受益者にかならずしも課金することができず、民間企業の意思決定においては必ずしも適切解が得られない。
  • Europeanaがもたらす標準化なしには、次善の策というロックインにはまり、さまざまな機関が提供するデータベースが分断され、開発コストは嵩み、相乗効果は失われる(loss of synergy)。特に、デジタル化における規模の経済を利用できない小規模館は、標準化と、様々なコレクションのメタデータを統合することを目的推したアプリやウェブサイトとから恩恵を受ける。
  • Europeanaは、民間企業がこの分野を率いた場合に、規模の経済を背景とした「市場支配力」によって生じるかもしれない歪みを緩和することができる。
  • Europeanaは、(取引コストの削減による)付加的な使用許諾(lisencing)の仕組み著作権者に対してもプラスの外部効果をもたらす。
  • 各機関は、いったんデジタル化した情報資源については、利用促進と維持のため、ひいてはデジタル化が経済や福利においてインパクトをもたらすための投資を十分に行わない傾向がある。Europeanaは情報資源の所有にかかる費用を削減することで、このような過少投資を緩和する。
  • EU外の国々との関係でみた場合、いち早く、調整の枠組みを提供し、デジタル基盤についての標準を設定することによって、初動者の利益を得ることができる、他国はEuropeanaの標準に合わせることになる。EU外で標準が設定され、それに合わせる場合よりコストが抑えられる。
以上。

2017年8月26日土曜日

ENUMERATE Observatory

今日は、ENUMERATE Observatoryについて書きます。Observatoryをなんと訳すべきか・・・。「観測所」や「天文台」と訳される場合が多いようですが、ここではEuropeanaの事業計画と遂行に不可欠な統計データを扱う「調査機関」です。

 ENUMERATE Observatoryのウェブサイトには、次のように紹介されています。

ENUMERATE Observatoryは、ヨーロッパの文化遺産のデジタル化、デジタル保存、オンラインアクセスに関する信頼できる統計値を提供する。独自サーベイのほか、既存データを再利用して統計値を集め、結果の分析と公開、また指標の開発や情報ニーズの調査を行う。

以下、ウェブサイトからの情報抜粋して紹介。

設立経緯

ヨーロッパの文化遺産に関連する統計は、確立した手法や集積の仕組みがなく、各文化機関はデジタル化への投資に対する戦略的意思決定を行うにあたって、依拠すべき信頼に足る数値がなかった。10機関によるコンソーシアムとして始まった、課題解決ネットワークENUMERATEは、デジタル化の進捗に関する統計データやナレッジを共有するヨーロッパ全体のコミュニティになった。

2007年から2009年のNUMERICプロジェクトの成果を引き継ぎ、2011年から欧州委員会の助成プログラムとして、2014年からEuropeanaの一部として継続されているENUMERATE事業は、ヨーロッパ内の文化遺産にかかる統計値を集約した点で画期的であった。英国のCollection Trustにおける文化遺産のデジタル化コストにかかる調査結果も取り入れ、 ENUMERATEは今後も統計手法の高度化、サーベイの実施、及びデータ提供プラットフォームの改善に取り組んでいく。

現況

現在は、Europeanaの一事業として、Collection Trust とDEN (Digitaal Erfgoed Nederland)が率いている。Europeanaという実践の場を得ることで、ENUMERATEの専門的知識が生きるという相互恩恵的な関係にある。

<主な活動内容>

  • ENUMERATEフレームワーク、文書、データプラットフォームの維持
  • 各国事務局との調整
  • 2016年にObservatoryの設置
  • 2017年にサーベイ実施(2011年から隔年実施。今回4回目。結果は翌年の場合も。)
  • 今後のサーベイに向けた調査、コンサルテーション

手法とマニュアル


本ドキュメントでは、全体を俯瞰した”high-level"指標と特定テーマを掘り下げるための指標が用意されている。high-level 指標の指標のミニマム・セットは
  • デジタル化資料の増加にかかるもの(需要)
  • デジタル化資料の利用にかかるもの(供給)
  • デジタル化のコストにかかるもの(経済的要素)
  • デジタル保存にかかるもの(サステイナビリティ)
の4領域20指標。

特定テーマにかかる指標は、たとえばローカルシステムにおけるメタデータの登録数などが例であるが、適用範囲はかぎられている。

また、統計に用いる標準語彙が定められている。

各国で、または国際的に行われている既存のデジタル化関連事業のモニタリングの仕組みの一覧。

サーベイ実施要領と結果

過去のサーベイの実施要領と結果が掲載されている。

ウェブサイトからの抜粋は以上。事業運営・継続についての説明責任を果たすためには、ちゃんとした数字があった方がいいのは明らか。意思決定に関わらないレベルのプロジェクトの従事者にとっても、「リアリティ」の中で事業遂行していくためにあった方がいいと思う。




2017年8月25日金曜日

永続的識別子の20年(文献紹介)

Klump, J. & Huber, R., (2017). 20 Years of Persistent Identifiers – Which Systems are Here to Stay?. Data Science Journal. 16, p.9. DOI: http://doi.org/10.5334/dsj-2017-009

インターネット上の情報のいわゆる「リンク切れ(Link rot)」に対する学術情報分野からの解決策として、様々な「永続的識別子(Persistent Identifiers, 以下 PID)」が考案されるようになってから、既に20年余り経つ。PIDの基本的な考え方は、識別の対象の「アイデンティティ」と「ウェブ上の所在情報」を分けることにあった。しかし、皮肉なことに、PIDを管理する組織の持続性を原因として、あるPID体系全体が存続の危機に陥ることもある。本文献は、主要なPIDの過去20年を振り返り、PID運営の成功と失敗の条件を考察したものである。以下、段落ごとに抄訳する。

●PIDの導入状況
研究データリポジトリのレジストリであるre3data.org (http://www.re3data.org)のデータに基づき、PIDの導入状況を見ると、2015年12月に登録されていた1381機関中475機関が何らかのPIDを採用している。複数採用している機関もある。「DOI」「Handle」「PURL 」「URN」「 ARK」「 その他」のうち圧倒的に採用数が多いのはDOIだが、「その他」も相当数あることが注目される。領域特有のPIDがあることを示唆する。機関リポジトリでHandleの採用例が多いのは、DSpaceの機能に組み込まれていることも影響していると考えられる。

●危機の2015−2016年
2015から2016年にかけて存続の危機に陥ったPIDが、OCLCが維持してきたPURLとライフサイエンス分野で普及していたLSIDである。PURLは中央の管理組織や共通のレゾリューションシステムがないことが特徴でそのため、2014年にOCLCが資金援助を辞めたことで危機に陥ったが、2016年からInternet Archiveが運営を担うことになり、新たなレゾリューションシステムも導入されたことで息を吹き返した。現在re3data.orgに登録中16機関で利用されているが、PURLだけという機関は少数である。LSIDは、生物多様性情報学の分野の標準的なPIDとしてTaxonomic Database Working Group (TDWG) が維持していたが、やはり中央の管理が緩く、DNSをベースとした複雑なレゾリューションシステムを用いていた。2016年にシステムの維持が難しくなり、レゾリューションサービスが停止、2ヶ月後に暫定的な対応として
再びサービスが提供されるようになったが、単純な記号管理(Cool URI)への移行が検討されている。

●生き残るPIDの条件
「信頼できるリポジトリ」の基準(criteria)が提唱され始めたのと同じ2008年頃から「信頼できるPID」の基準も提唱され始めた。Bütikoferは技術的・組織的基準を提示し、Duerrは使いやすさ(ユーザビリティ)を重視した。両者の結論には異なる部分もあるが、共に管理組織の持続性を重視している。管理組織の持続性の維持のために必要なのは、運営の透明性だ。運営の議論は公開されていない場合が多いが、付与促進の裏でエグジット戦略が議論されていたりするのは欺瞞である。リゾルバの要否については、今のところ「要」である。というのも、まだ完全なセマンティックウェブの世界が実現されていないからだ。

科学の記録の要素を永続的に、人間にも機械にもわかる方法で識別するということがPIDの重要な役割であるが、これは純粋に技術的な課題というよりも、社会契約(social contract)の問題である。しかしながら、あるPIDシステムに依拠したユーザコミュニティが広がるにつれて、このような社会契約が自ずと強化されると考えるのは幻想だ。商業学術出版社の後ろ盾があるDOIシステムが、現在最も成功している PIDであり、国立図書館の後ろ盾のURNやARKはマイナーな存在に留まっている。商業的な仕組みにうんざりしている一部の学術情報コミュニティのメンバーには呑み込みがたい事実かもしれないが、ビジネスモデルがPIDシステムに不可欠の要素であり、サステイナブルな  PIDは無料ではないのである。(抄訳以上)

 なお、最近の研究データやPIDの動向分析の文献によくre3data.orgの登録データが使われているな、と思う。例えば、これも→https://doi.org/10.1045/march2017-kindling