研究データのライフサイクル:再利用
データの再利用とは?
データの再利用とは、データを本来の収集目的とは別の目的で使用することです。データの再利用は、科学の分野では特に重要です。なぜなら、異なる研究者が同じデータに基づいて分析し、研究結果を発表することができるからです。再利用可能性は、FAIR原則の重要な要素の一つです。
明確な条件の下で十分に説明され、管理され、共有されたデータは、再利用される可能性が高くなります。また、データを他のデータソースと統合することも重要です。なぜなら、統合によって新しい、かつ予想外なデータの利用が可能になるからです。
なぜデータの再利用が重要なのか?
既存のデータを再利用することで、以下のことが可能となります:
- 研究の参考になるデータを得ること
- 不必要な実験を避けること
- 報告された結果が正しいかどうかを確認するために分析を行い、その後の研究結果をより強固なものにすること
- 異なる方法やサンプルから得られた結果を集約し、研究をより強固なものにすること
- データセットの結合とメタアナリシスにより、新しい洞察を得ること
データの再利用のために何を考慮すべきか?
データを再利用する際には、以下の点を考慮しましょう:
- 再利用可能なデータを説明している異なるソースを探します。手始めに、キュレーションされたコンテンツを持つ付加価値のあるデータベースを探してみましょう。その他の可能性としては、アノテーションに基づく適切なデータリポジトリを検索したり、科学論文の著者から直接データを入手したりすることが挙げられます。
- データがどのような条件で共有されているかを確認します。ライセンスがあること、そしてそのライセンスがあなたの意図する利用を許可していることを確認します。
- データの再利用を可能にする十分なメタデータがあるかどうかを確認します。データの種類によっては、再利用が容易なもの(例:ゲノムデータ)もあれば、解釈して再利用するために広範なメタデータを必要とするもの(例:遺伝子発現実験データ)もあります。
- データの品質を評価します。そのデータは信頼できるソースからのものでしょうか?キュレーションされているでしょうか?そのデータは標準に準拠しているでしょうか?
- データが倫理的に問題なく収集されているか、データを再利用する際に従うべきポリシーや規制に適合しているかを確認します。センシティブデータについては、通常、データにアクセスする前に満たさなければならない法的および技術的な要件があります。そのため、センシティブデータにアクセスするには、追加の手順が必要になります。
- データが更新されている場合は、どのバージョンのデータを使用しているのかを必ず文書化します。また、その変更が結果にどのような影響を与えるかを考慮します。
- データを適切に引用します。永続的な識別子(DOIなど)がある場合は、それを引用文に含めます。
Contributors