研究データのライフサイクル:保存
保存(データ保存)とは?
データ保存とは、データの安全性、完全性、およびアクセス性を必要な期間(場合によっては数十年)にわたって確保するために必要な一連の活動です。データ保存は単なるデータストレージやバックアップではありません。なぜなら、データを保存しなくてもデータの貯蔵やバックアップができるからです。データ保存は、以下のような適切な活動によって、時間の経過とともにデータが利用できなくなったり、使えなくなったりするのを防ぐものです。
- データの安全性と完全性を確保する。
- ファイル形式の変更(フォーマットの変換)やソフトウェアの更新を行い、古くなったり陳腐化したりしないようにする。
- ハードウェアやその他の記憶媒体(紙、磁気テープなど)を劣化しないように変更する。
- データが整理され、適切なメタデータや文書で記述され、常に理解でき、再利用できるようにする。
なぜデータの保存が重要なのか?
研究データ保存の主な理由は
- プロジェクト終了後、長期に渡ってデータの検証と再現が可能であることを保証するため。
- 教育やさらなる研究など、異なる目的でも将来データを再利用できるようにするため。
- 資金提供者、論文の出版社、研究助成機関、所属組織が、データの保存を要求するため。
- 組織、国家、環境、または社会全体にとって重要な価値のあるデータを保存するため。
データ保存のために何を考慮すべきか?
すべてのデータを保存すべきではありません。保存には相応の労力とコストがかかるため、適切なデータを選択して実施する必要があります。保存するデータを選択する基準は以下の通りです。
- 資金提供者、出版社、機関の方針(通常、データはプロジェクト終了後少なくとも10年は保存されるべきである)。
- 法的または倫理的要件(例:臨床試験データ)。
- ユニークなデータ、または簡単には再生成できないデータ(例:実験の生データ、分析ワークフロー)。
- 将来的に再利用されるであろうデータ。
- 社会的に価値のあるデータ(科学的、歴史的、文化的に)。
データの保存は、専門家および専用のサービスによって行われる必要があります。デジタル情報の保存には、計画、ポリシー、リソース(時間、資金、人材)に加えて、データの機能を維持し、アクセスできるようにするための適切な技術が必要です(情報の品質、保存および完全性に関するISO規格を参照)。ゆえに、デジタル保存には、データが積極的に維持され、情報の完全性を監視できる、特別な長期データリポジトリを使用する必要があります。したがって、以下のようにするのが最善です。
- 所属する機関のIT部門、図書館、データセンターに相談する。
- 国内やネット上のサービスが利用できるかどうかを確認する。
- データの種類に応じて、信頼できる研究データリポジトリまたは寄託データベースを選択する。リポジトリは一般に公開されており、データを公開することも可能である。
保存用のデータを準備する際には
- できるだけ、変換途中のデータや更新可能なデータを含めない。
- メタデータが記述され、内容が文書で説明されている。
- 由来に関する情報を含める。
- 再利用のためのライセンス情報を含める。
- データが十分に整理されていることを確認する。
- ファイル名やデータ名に一貫した命名規則が使われていることを確認する。
- 独自のファイル形式ではなく、標準的なオープンソースのファイル形式を使用する。
- デジタル化されていないデータ(紙など)を保存する必要がある場合は、そのデータをデジタル化することが可能かどうかを検討するか、所属機関のデータ管理支援サービス等に相談する。
- 微生物、生体材料、細胞などの生物学的なサンプルを保存する必要がある場合は、所属機関のデータ管理支援サービスに相談し、適切なセンターやバイオバンクを探します。
- ナショナルバイオリソースプロジェクト https://nbrp.jp/about/
- 酒類総合研究所 https://www.nrib.go.jp/data/zyutakuhozon.html
Contributors