2017年9月21日木曜日

オーストラリアの研究データ関連の取組みについて。

オーストラリアの研究データ関連の取組みの大まかな全体像を捉えようとしている。
(必要に迫られたから)

で、色々見てたが、オーストラリア政府が2017年2月に刊行した、今後10年間(原文ではdecade)に政府が優先的に整備を進めるべき研究基盤についての提言、“The 2016 National Research Infrastructure Roadmap”にまとまってたので、関連するところを抜粋。

まず、研究基盤の整備において、オーストラリアが今後10年間で力を入れる分野としては、次の9分野。
・Digital Data and eResearch Platform 
・Platforms for Humanities, Arts, and Social Science 
・Characterization
・Advanced Fabrication and Manufacturing
・Advanced Physics and Astronomy
・Earth and Environmental Systems
・Biosecurity
・Complex Biology
・Therapeutic Development

このうち、研究データ等に関係するのは上の二つか。その概要を読むと、
  1. Digital Data and eResearch Platform (デジタルデータとeリサーチプラットフォーム)→すでになかなかいいeResearchシステムが出来上がっているので、今後はAustralian Research Data Cloudを構築することで、より統合的で首尾一貫した、信頼性の高いシステムを実現し、データ集約的研究、異分野横断的研究、国際共同研究のニーズに応える。
  2. Platforms for Humanities, Arts, and Social Science (人文学、社会科学分野の基盤) →オーストラリアの社会的・文化的データの発見、アクセス、キュレート、分析のプロセスに変化をもたらすような基盤整備を行う。

ということらしい。

で、1.について詳しく見ていくと、まず、動向分析として、
・デジタルデータへの依存度がどんどん高くなっている
・データは複雑化、膨大化し続け、扱う人間にも高度なスキルが要求されるようになっている
・国際的には、European Open Science Cloudのようなイニシアチブや、データのFAIR原則(findable, Accessible, Interoperable, Reusable)が重要性を増している

といった点が挙げられ、

次にオーストラリアが現状備えているものとして、(1)高性能コンピュータと(2)以下に箇条書きする様々な研究データ基盤がある、と続く。
  • Advanced Research and Education Network (大学、研究機関間のブロードバンド網)
  • Access and Anthentication Services (The Australian Access Federation が提供する学術情報へのアクセスコントロールと認証サービス)
  • 比較的適切に管理された研究データ(財団の出資により運営される組織であるThe Australian National Data Service (ANDS) が、研究者や機関によるデータの管理や連携を支援してきた。またFAIR原則への準拠や国際的な標準や実践についての啓蒙活動も実施している。)
  • 国の研究データストレージ(Research Data Services (RDS)が提供する)
  • デジタルツールとヴァーチャルラボを提供する研究クラウド(National eResearch Collaboration Tools and Resources (NeCTAR)が提供する、データの分析・利用のためのソフトウェアやモデルなどを共有するプラットフォーム)
次の目標としては、ANDS、RDS、NeCTARが連携して、統合的なデータ集約基盤の構築を目指す。これを仮に“Australian Research Data Cloud”と呼んでおり、ヨーロッパのEuropean Open Science Cloud のようなものを目指す、そして連携する、となっている。これは、データの作成、発見、記述、来歴、統合、保管、操作、分析、保存という全てのプロセスを支援する仕組みを目指すらしい。

2. の人文社会学系研究基盤の整備については、オーストラリア国立図書館が運営する
文化資源ポータルTroveの取組みを拡張するような形で、文化資源のデジタル化を進めるとともに、社会科学分野のデータの統合、また先住民研究のための研究基盤を充実させることなどが目標として掲げられている。

とりあえず、今日はここまで。これを調べた動機が、ANDS, RDS, NeCTARの活動のオーストラリア国内での位置付けを確認しようということだったので、第一段階としてはこの辺でまあいっかと。あとは最近の各機関からの刊行物等で個別の連携事業についての紹介があったので見ておく。



2017年9月8日金曜日

公開シンポジウム「ORCID 我が国の学術情報、研究者情報発信強化を目指して」 所感。

今日は、日本教育会館で行われたORCIDについての公開シンポジウムに、聴衆として参加してきた。特に配布資料もなく、かなり情報量も多かったので、以下、自分の理解できた範囲で記録。

組織としてのORCIDは、機関会員からの会費によって運営資金が賄われる非営利団体である(個人が登録する場合は無料)。現在、日本の学協会コンソーシアムを組織して、ORCIDに参加する可能性を探っており、今回のシンポジウムも、学協会に参加を呼びかけるのが主目的だった。

研究者を識別するIDとしてORCIDが世界的に普及しており、主要誌への投稿のために、日本の研究者が個人で登録するケースも増えている。ORCIDの本人に関する情報は、本人申告制を基本とするが、大学なり学協会なりが機関として参加し、個々の研究者情報を補足することで、その情報の信頼性を高めることになり、ひいては研究者支援になる。ORCID IDの取得を義務化する海外出版社や助成機関も出てきている中、このような会員サービスは学協会に必要なのではないか、というのが全体的に感じられたメッセージ。

スピーカーの一人である、物質・材料研究機構(NIMS)の谷藤幹子氏からは、昨今の学術情報流通の様相の変化(例えば“Perspective"といった従来型の論文とは異なる記事の増加、フォーマットがPDFやHTMLからXMLへ、図やデータが独立して流通、テキストマイニング用ファイルの提供)や、それを受けての図書館側の購入方法の変化(電子ジャーナル購入のためにコンソーシアムを組むという10年前のやり方から、各館が自館の利用者に最適な組み合わせを選ぶという方向へ)、また研究者のキャリアパスの多様化(若手を中心に短期で所属が変わる人が増えている、キャリアにブランクがあるなど)といった、ORCIDが有用となる文脈の紹介ののち、NIMSが提供する研究者プロフィールシステムSAMURAIにおけるORCIDとのAPI連携の事例紹介があった。

スピーカーからは、

  • 「非営利団体」といっても慈善団体ではなく、参加するのであれば、日本からも理事を出して、運営に積極的に関わっていかなければ、会費に応じたメリットが得られない。
  • 日本は依然としてデフレが続いているが、世界的にはインフレであり、会費は値上がりしていくと考えるのが自然である。
  • ORCID側で、機関規模に応じた傾斜のある機関会員の会費設定がされていないのが不可解。欧米の資本力ある学術出版社が参加する場合と、日本の小規模な学協会が参加する場合とが、機関会員として同額負担というのは検討の余地がある。

といった論点も挙げられた。

ORCIDに限らず、欧米主導の仕組みに乗っていくとした場合、私自身、この辺りのことが、一番引っかかっていたことだったので、明言してもらえてよかった。1点目、2点目については、参加する場合の「リスク」として管理していくことになるのだろう。

なお、3点目の傾斜負担については、コンソーシアムを作って参加すれば、コンソーシアム内で自律的に傾斜制を取ることも可能らしい。

とりあえず、こんな感じ。資料がいずれ公開されるはずなのだが・・・。

(9/20追伸:資料が公開されていました。https://sites.google.com/view/orcid-j-society/活動履歴

2017年8月29日火曜日

Marco de Niet 氏

調査と標準化活動を通してヨーロッパ内のMLA連携とEuropeanaの運営に大きく貢献している組織DENを11年間率いてきた、Marco de Niet氏の退陣挨拶。

http://www.den.nl/blog/bericht/5984

在任中の最も大きな成果として誇りにしているのがENUMERATE。「歴史の公共性」, 「ユーザから見るとアーカイブズとミュージアムはとても似ている」など言及。

9月から、ライデン大学図書館の副館長に就任。

2017年8月28日月曜日

調査リポート:Europeanaを各種オンライン文化資源サービスと比較するとどのような特徴があるか(2016)

私が崇拝する(?)DENから出た最近の調査リポート。
Europeana as online cultural information service
https://pro.europeana.eu/files/Europeana_Professional/Publications/europeana-benchmark-report-sep-2016.pdf

Europeanaを他の同様のサービス(有償無償、民間公共問わず)と比較してどのような特徴があるかを分析したもの。調査対象となったサービスは下図のものを含め19種。




結果をざっくり言うと、Europeanaは、他のサービスと比較して、双方向性が「高」、信頼性が「中の下」、使いやすさが「中」。

後半は、どのようにこの調査を行ったか、元になったデータと方法論の話で、ここがまた興味深い。

調査リポート:The Value of Europeana (2013)

Europeanaは、2008年に、EU内の図書館、文書館、博物館、ギャラリーが所有するデジタルコンテンツのサービスプラットフォームとして構築された。

2013年にEUのデジタルサービス基盤向けの予算が大幅削減された時、Europeana事業の継続も危ぶまれた。(参考:https://jipsti.jst.go.jp/johokanri/sti_updates/?id=6067)2008年から2014年を対象とした初期の助成が終了するにあたり、2015年以降の資金獲得のために
外部調査機関がEuropeana事務局の委託を受けて作成したリポートがある。少し古いが、同様のサービスを日本でやるとした場合に、計画と評価に関して得るところがあるかもしれないので、ざっくり紹介。

SEO Economic Research. The Value of Europeana (2013).
http://pro.europeana.eu/files/Europeana_Professional/Publications/Europeana%20Strategy%202020-%20Value%20assessment%20SEO.pdf


まず、この調査リポートの調査課題は、下記の通り。

2015年から2020年にかけてEuropeanaのサービスとインフラを維持・拡大するために継続的な投資をすることの社会経済的価値は何か。

コストは当時策定中のEuropeana Strategic Business Plan 2015-2020に基づき、201511日時点での純現在価値(NPV)を5370万ユーロとして計算したそう。

●経済効果
リポートでは、以下5つのユーザグループについて、記載する算出方法に基づき経済効果を分析。

  1. Europeanaで提供されるサービスやインフラはオープンソースであり、これらを利用しているGLAM(ギャラリー、図書館、文書館、博物館)は数百に上る。これらのツールは各機関における一般ユーザ、研究ユーザとのコミュニケーション改善をもたらすと同時に、サービスやインフラの開発コストを削減した。経済効果の算出方法: デジタル化と情報通信システムに関する支出の推定削減値(%)
  2. 一般市民もまた恩恵を受けている。ヨーロッパ内外のアートや文化、文化遺産に関心のある市民がEuropeanaのウェブサイトを訪れ、電子展示会やテーマごとのアクセスポイント(例: Europeana 1914-1918, Europeana 1989)を訪れている。また、ソーシャルメディアでEuropeanaをフォローしたり、Europeanaのアプリをダウンロードしたり、イベントに参加したりしている。経済効果の算出方法:Europeanaウェブサイト、電子展示会、ソーシャルメディアの閲覧時間、Europeanaのオフライン展示会やイベントの滞在時間、各機関のオフライン、オンラインの訪問者増加率(%)
  3. 第三に利益があるのは観光客である。Europeanaが提供するデータベースを用いて作成されたウェブサイト、アプリ、ガイドブックを使っているかもしれない。アートや文化資源に関する情報が入手しやすくなることは、ヨーロッパの魅力向上に役立ち、特に従来あまり知られてこなかった地域や文化遺産の魅力を伝え、集客を図ることができる。経済効果の算出方法:滞在日数または滞在中の支出の推定増加率
  4. 第四のグループは、いわゆる「クリエイティブ・インダストリー」と言われるセクターである。例えば、アートやカルチャー、文化遺産や旅情報に関する本を制作する出版社、歴史的な情報を求めているジャーナリスト、リサーチを行うアーティストやデザイナー、またメタデータを用いるゲームやアプリの開発者などは機械可読性の高いメタデータサービスや、パートナー機関からの一次情報入手により利益を得る。経済効果の算出方法:トップ・ダウン・ビジネスケース
  5. 最後のグループは教育機関と研究者である。デジタルコンテンツへのアクセス向上は教材とeラーニングツール作成のためのコスト削減及び品質向上、ひいては教育の質向上に役立つかもしれない。経済効果の算出方法:教育と研究におけるコスト削減、教育と研究におけるアウトプットの向上

このうち、1と3は、金銭的な定量化がしやすく、2は金銭的ではないものの定量化が容易。4と5は、少なくとも調査時点では根拠となる数値が得難く、定量化しにくいものでした。

後半では、いわゆる「市場の失敗」が存在する、芸術、文化、遺産の領域で、Europeanaのような存在が必要な理由(政府の介入が必要な理由)が大きく6点述べられる。

  • Europeanaは取引コスト(文化遺産や文化情報の発見コスト、また潜在的には第三者に対するライセンシング・コスト)を削減する。これは、クリエイティブ・インダストリーやアプリ開発者、文化遺産についての情報を探す消費者や研究者に波及効果がある。利益が発生しても、個々の利益に対しては相対的に高くつく可能性のある取引コストに鑑みた場合に、ユーザや受益者にかならずしも課金することができず、民間企業の意思決定においては必ずしも適切解が得られない。
  • Europeanaがもたらす標準化なしには、次善の策というロックインにはまり、さまざまな機関が提供するデータベースが分断され、開発コストは嵩み、相乗効果は失われる(loss of synergy)。特に、デジタル化における規模の経済を利用できない小規模館は、標準化と、様々なコレクションのメタデータを統合することを目的推したアプリやウェブサイトとから恩恵を受ける。
  • Europeanaは、民間企業がこの分野を率いた場合に、規模の経済を背景とした「市場支配力」によって生じるかもしれない歪みを緩和することができる。
  • Europeanaは、(取引コストの削減による)付加的な使用許諾(lisencing)の仕組み著作権者に対してもプラスの外部効果をもたらす。
  • 各機関は、いったんデジタル化した情報資源については、利用促進と維持のため、ひいてはデジタル化が経済や福利においてインパクトをもたらすための投資を十分に行わない傾向がある。Europeanaは情報資源の所有にかかる費用を削減することで、このような過少投資を緩和する。
  • EU外の国々との関係でみた場合、いち早く、調整の枠組みを提供し、デジタル基盤についての標準を設定することによって、初動者の利益を得ることができる、他国はEuropeanaの標準に合わせることになる。EU外で標準が設定され、それに合わせる場合よりコストが抑えられる。
以上。

2017年8月26日土曜日

ENUMERATE Observatory

今日は、ENUMERATE Observatoryについて書きます。Observatoryをなんと訳すべきか・・・。「観測所」や「天文台」と訳される場合が多いようですが、ここではEuropeanaの事業計画と遂行に不可欠な統計データを扱う「調査機関」です。

 ENUMERATE Observatoryのウェブサイトには、次のように紹介されています。

ENUMERATE Observatoryは、ヨーロッパの文化遺産のデジタル化、デジタル保存、オンラインアクセスに関する信頼できる統計値を提供する。独自サーベイのほか、既存データを再利用して統計値を集め、結果の分析と公開、また指標の開発や情報ニーズの調査を行う。

以下、ウェブサイトからの情報抜粋して紹介。

設立経緯

ヨーロッパの文化遺産に関連する統計は、確立した手法や集積の仕組みがなく、各文化機関はデジタル化への投資に対する戦略的意思決定を行うにあたって、依拠すべき信頼に足る数値がなかった。10機関によるコンソーシアムとして始まった、課題解決ネットワークENUMERATEは、デジタル化の進捗に関する統計データやナレッジを共有するヨーロッパ全体のコミュニティになった。

2007年から2009年のNUMERICプロジェクトの成果を引き継ぎ、2011年から欧州委員会の助成プログラムとして、2014年からEuropeanaの一部として継続されているENUMERATE事業は、ヨーロッパ内の文化遺産にかかる統計値を集約した点で画期的であった。英国のCollection Trustにおける文化遺産のデジタル化コストにかかる調査結果も取り入れ、 ENUMERATEは今後も統計手法の高度化、サーベイの実施、及びデータ提供プラットフォームの改善に取り組んでいく。

現況

現在は、Europeanaの一事業として、Collection Trust とDEN (Digitaal Erfgoed Nederland)が率いている。Europeanaという実践の場を得ることで、ENUMERATEの専門的知識が生きるという相互恩恵的な関係にある。

<主な活動内容>

  • ENUMERATEフレームワーク、文書、データプラットフォームの維持
  • 各国事務局との調整
  • 2016年にObservatoryの設置
  • 2017年にサーベイ実施(2011年から隔年実施。今回4回目。結果は翌年の場合も。)
  • 今後のサーベイに向けた調査、コンサルテーション

手法とマニュアル


本ドキュメントでは、全体を俯瞰した”high-level"指標と特定テーマを掘り下げるための指標が用意されている。high-level 指標の指標のミニマム・セットは
  • デジタル化資料の増加にかかるもの(需要)
  • デジタル化資料の利用にかかるもの(供給)
  • デジタル化のコストにかかるもの(経済的要素)
  • デジタル保存にかかるもの(サステイナビリティ)
の4領域20指標。

特定テーマにかかる指標は、たとえばローカルシステムにおけるメタデータの登録数などが例であるが、適用範囲はかぎられている。

また、統計に用いる標準語彙が定められている。

各国で、または国際的に行われている既存のデジタル化関連事業のモニタリングの仕組みの一覧。

サーベイ実施要領と結果

過去のサーベイの実施要領と結果が掲載されている。

ウェブサイトからの抜粋は以上。事業運営・継続についての説明責任を果たすためには、ちゃんとした数字があった方がいいのは明らか。意思決定に関わらないレベルのプロジェクトの従事者にとっても、「リアリティ」の中で事業遂行していくためにあった方がいいと思う。




2017年8月25日金曜日

永続的識別子の20年(文献紹介)

Klump, J. & Huber, R., (2017). 20 Years of Persistent Identifiers – Which Systems are Here to Stay?. Data Science Journal. 16, p.9. DOI: http://doi.org/10.5334/dsj-2017-009

インターネット上の情報のいわゆる「リンク切れ(Link rot)」に対する学術情報分野からの解決策として、様々な「永続的識別子(Persistent Identifiers, 以下 PID)」が考案されるようになってから、既に20年余り経つ。PIDの基本的な考え方は、識別の対象の「アイデンティティ」と「ウェブ上の所在情報」を分けることにあった。しかし、皮肉なことに、PIDを管理する組織の持続性を原因として、あるPID体系全体が存続の危機に陥ることもある。本文献は、主要なPIDの過去20年を振り返り、PID運営の成功と失敗の条件を考察したものである。以下、段落ごとに抄訳する。

●PIDの導入状況
研究データリポジトリのレジストリであるre3data.org (http://www.re3data.org)のデータに基づき、PIDの導入状況を見ると、2015年12月に登録されていた1381機関中475機関が何らかのPIDを採用している。複数採用している機関もある。「DOI」「Handle」「PURL 」「URN」「 ARK」「 その他」のうち圧倒的に採用数が多いのはDOIだが、「その他」も相当数あることが注目される。領域特有のPIDがあることを示唆する。機関リポジトリでHandleの採用例が多いのは、DSpaceの機能に組み込まれていることも影響していると考えられる。

●危機の2015−2016年
2015から2016年にかけて存続の危機に陥ったPIDが、OCLCが維持してきたPURLとライフサイエンス分野で普及していたLSIDである。PURLは中央の管理組織や共通のレゾリューションシステムがないことが特徴でそのため、2014年にOCLCが資金援助を辞めたことで危機に陥ったが、2016年からInternet Archiveが運営を担うことになり、新たなレゾリューションシステムも導入されたことで息を吹き返した。現在re3data.orgに登録中16機関で利用されているが、PURLだけという機関は少数である。LSIDは、生物多様性情報学の分野の標準的なPIDとしてTaxonomic Database Working Group (TDWG) が維持していたが、やはり中央の管理が緩く、DNSをベースとした複雑なレゾリューションシステムを用いていた。2016年にシステムの維持が難しくなり、レゾリューションサービスが停止、2ヶ月後に暫定的な対応として
再びサービスが提供されるようになったが、単純な記号管理(Cool URI)への移行が検討されている。

●生き残るPIDの条件
「信頼できるリポジトリ」の基準(criteria)が提唱され始めたのと同じ2008年頃から「信頼できるPID」の基準も提唱され始めた。Bütikoferは技術的・組織的基準を提示し、Duerrは使いやすさ(ユーザビリティ)を重視した。両者の結論には異なる部分もあるが、共に管理組織の持続性を重視している。管理組織の持続性の維持のために必要なのは、運営の透明性だ。運営の議論は公開されていない場合が多いが、付与促進の裏でエグジット戦略が議論されていたりするのは欺瞞である。リゾルバの要否については、今のところ「要」である。というのも、まだ完全なセマンティックウェブの世界が実現されていないからだ。

科学の記録の要素を永続的に、人間にも機械にもわかる方法で識別するということがPIDの重要な役割であるが、これは純粋に技術的な課題というよりも、社会契約(social contract)の問題である。しかしながら、あるPIDシステムに依拠したユーザコミュニティが広がるにつれて、このような社会契約が自ずと強化されると考えるのは幻想だ。商業学術出版社の後ろ盾があるDOIシステムが、現在最も成功している PIDであり、国立図書館の後ろ盾のURNやARKはマイナーな存在に留まっている。商業的な仕組みにうんざりしている一部の学術情報コミュニティのメンバーには呑み込みがたい事実かもしれないが、ビジネスモデルがPIDシステムに不可欠の要素であり、サステイナブルな  PIDは無料ではないのである。(抄訳以上)

 なお、最近の研究データやPIDの動向分析の文献によくre3data.orgの登録データが使われているな、と思う。例えば、これも→https://doi.org/10.1045/march2017-kindling