Bien utiliser les entrepôts de données
Attention : Toutes les données n’ont pas vocation à être diffusées. Avant toute diffusion, il convient d’analyser la nature juridique et éthique des jeux de données. Il est recommandé d’adopter une approche pragmatique qui respecte le principe « aussi ouvert que possible, aussi fermé que nécessaire.
Pour plus d'informations, référez-vous au guide « Ouverture des données de recherche, analyse du cadre juridique en France » de l’INRA.
Déposer ses données dans un entrepôt de données permet de les rendre visibles, accessibles et citables au même titre que les publications scientifiques.
Il existe différents types d’entrepôts de données : thématiques, multidisciplinaires, institutionnels, propres à un éditeur ou à un projet de recherche.
Par exemple :
- Zenodo, créé par OpenAire et par le CERN pour accueillir les données de recherche de toutes disciplines
- DataDryad , entrepôt créé en sciences de la vie et désormais ouvert à toutes les disciplines, pour accueillir des données associées à des articles de revues
Le choix d’un entrepôt dépend de la nature des données, du projet de recherche dans le cadre duquel elles ont été produites et, des objectifs du déposant. Attention, certains entrepôts imposent des conditions de réutilisation non conformes à un accès ouvert..
Voici une sélection de liens pour vous guider :
- Re3Data (Registry of Research Data Repositories), répertoire d’entrepôts de données de recherche
- La fiche synthétique « Dépôts et entrepôts » du site DoRANum
- La rubrique « Choisir un entrepôt » du site de l’INRA
Un Data Paper est un article publié dans une revue à comité de lecture, dans le but d’informer la communauté scientifique de l’existence et la disponibilité d’un jeu de données. Son contenu décrit le jeu de données et le place dans son contexte, dans le but de mettre en valeur son potentiel de réutilisation.
Les Data Papers peuvent être publiés soit dans des revues classiques, soit dans des Data Journals.
Vous trouverez plus d’informations sur la plateforme DoRANum du CNRS, sur le site de l’INRA « Où et comment publier un Data Paper » ou sur le site de l’IRSTEA « Publier un Data paper ».
Métadonnées
Les métadonnées servent à décrire les ressources. L’utilisation de métadonnées standardisées permet le partage et la circulation des données. L’emploi de métadonnées descriptives de qualité assurera la compréhension des données et rendra possible leur réutilisation.
Vous trouverez plus d’informations sur la fiche synthétique « Métadonnées, standards, formats » du site DoRANum
Identifiants pérennes
Lorsque l’on partage un jeu de données, il convient de lui associer un identifiant pérenne dans le but de faciliter son accès, sa réutilisation et de le rendre citable.
Il est conseillé d’associer un identifiant DOI (Digital Object Identifier) à ses jeux de données. La plupart des entrepôts de données en génèrent automatiquement lors du dépôt.
Vous trouverez plus d’informations sur la fiche synthétique « Identifiants pérennes » du site DoRANum
Stockage et archivage
Pour garantir que les données seront conservées et accessibles durablement, il convient d’anticiper l’obsolescence technologique en privilégiant les technologies ouvertes et les formats pérennes et en diversifiant les supports.
Vous trouverez plus d’informations sur la fiche synthétique « Stockage et archivage » du site DoRANum.