OUVRIR SES DONNÉES, COMMENT ÇA MARCHE ?

« Gérer, préserver, ouvrir ou partager les données sont autant d’actions qui bénéficient aux progrès de la recherche scientifique. Elles permettent de mutualiser les efforts de collecte des données au sein de la communauté scientifique, de consolider et de multiplier les résultats issus de leur exploitation » (Deuxième Plan national pour la science ouverte 2021-2024, p. 13)

L’ouverture des données de la recherche ou Open Research Data consiste à mettre en libre accès les données issues d’un projet de recherche.


Il est important de faire la distinction entre les données ouvertes, accessibles à tous, et les données partagées, qui nécessitent une autorisation et une identification des utilisateurs. Que ce soit en accès ouvert ou partagé, les données doivent être décrites, structurées et liées. Ainsi, partager et diffuser les données scientifiques signifie les rendre conformes aux principes FAIR : Faciles à trouver, Accessibles, Interopérables, Réutilisables. L’ouverture suppose donc d’adopter de bonnes pratiques de gestion des données.

Pourquoi ouvrir ses données ?


Mettre en libre accès les données de la recherche apporte visibilité et crédibilité aux travaux scientifiques, en contribuant à rendre les méthodologies plus transparentes. C’est également une condition sine qua non à la reproductibilité des résultats.
Les jeux de données produits et disponibles peuvent être réutilisés par d’autres chercheurs et ouvrir de nouvelles perspectives d’analyse. Ils peuvent encourager également la collaboration scientifique.
L’accessibilité des données de la recherche peut également permettre le développement de projets de sciences participatives, qui font participer les citoyens à la science et au partage des connaissances.

 

Une ouverture raisonnée des données comporte trois types de compétences : administratives, techniques et juridiques

Au niveau européen le programme Horizon Europe, programme d’investissement de l’Union Européenne pour la recherche et l’innovation (2021-2027), promeut l’ouverture des données selon le principe « aussi ouvert que possible, aussi fermé que nécessaire ». La rédaction et la publication d’un plan de gestion de données, ou data management plan (DMP), y est rendu obligatoire pour les projets financés. Ce document a pour but de planifier l’ensemble du cycle de vie des données, de leur production jusqu’à leur diffusion en libre accès.


Au niveau français, le deuxième axe du Deuxième Plan National pour la science ouverte s’intitule « Structurer, partager et ouvrir les données de la recherche ». Ce plan fait des questions de partage et de diffusion des données dans la pratique scientifique une priorité. Il encourage l’accès ouvert pour les données issues des recherches financées par appels à projets sur fonds publics. Il est renforcé par la Politique des données, des algorithmes et des codes sources. Feuille de route 2021-2024.


Le Plan Données de la recherche du CNRS, publié en novembre 2020, met en place la Direction des données ouvertes de la recherche (DDOR) qui se propose de développer la science et les données ouvertes.


Le plan d’action 2022 de l’ANR indique que les porteurs de projet doivent, pour la gestion de leurs données de recherche, s’inscrire dans une démarche FAIR et rendre dans les six premiers mois du projet un plan de gestion de données.

 

Notions clés de l’ouverture des données


Data set

La notion de jeu de données scientifiques (data set) comporte un regroupement de données numériques pour former un ensemble cohérent. Un jeu de données est accompagné de métadonnées communes afin d’être utilisé et cité. Il est lié à un projet de recherche et à un objet d’étude.


Data paper

Un Data paper est un article scientifique qui présente une description détaillée et précise d’un jeu de données et de son contexte de production. Il informe la communauté scientifique de la mise en disponibilité du jeu déposé dans un entrepôt de données. Cette nouvelle forme de publication se développe dans un objectif d’ouverture des données.
Par exemple, Scientific Data, revue en libre accès créée en 2014, publie uniquement des data papers, appelés par la revue Data Descriptor. Ces articles décrivent des jeux de données en sciences de la vie, biomédecine et environnement envoyant les lecteurs vers les liens des entrepôts où les données sont accessibles.

Conditions pour bien ouvrir ses données

  • Adopter les standards du Web sémantique afin d’assurer que les données pourront être réutilisées dans les meilleures conditions par l’ensemble des internautes qu’ils soient chercheurs ou issus de la société civile. Un bon moyen de commencer est d’appliquer l’échelle des 5 étoiles de l’Open Data, ensemble gradué proposé par Tim Berners-Lee.
  • Choisir un entrepôt de données (Data repository) accessible pour y déposer ses données. Chaque entrepôt, généraliste ou disciplinaire, a une procédure d’enregistrement de fichiers et de métadonnées. Il attribue à vos données un identifiant pérenne nommé DOI (Digital Objet Identifier).
  • Attribuer des licences à vos données. Les licences de diffusion définissent les modalités de partage et les conditions de réutilisation des données.
  •  Vous pouvez rendre accessibles vos données en tant que fichiers supplémentaires (supplementary material/data) à un article scientifique publié dans une revue. Dans ce cas il s’agira des données sous-jacentes à la publication.

 

Le guide Ouverture des données de recherche – Guide d’analyse du cadre juridique en France (V2 - décembre 2017), issu d’un groupe de travail inter-organismes animé par l’INRAE et soutenu par le Comité pour la Science ouverte est une bonne approche pour aborder le cadre juridique. Ce guide propose un logigramme de communicabilité des données, qui fait l’objet d’un outil de visualisation disponible en ligne.  


Les données de la recherche financée sur fonds publics sont des données publiques dont le principe est l’ouverture. Néanmoins, des restrictions juridiques et éthiques s’imposent notamment pour les données personnelles, les données sensibles, les données protégées par le droit d’auteur. En revanche, la communication des données relatives aux secrets professionnels, au secret de la défense nationale, à la sûreté de l’Etat et à la sécurité publique est interdite par principe.


Ainsi, il est nécessaire de rester vigilant sur les données diffusées dans certaines situations, en particulier lorsqu’elles concernent un établissement qui produit des données sensibles. En outre, « il convient d’être particulièrement prudent lorsqu’il y a une publication scientifique et que l’éditeur impose le dépôt des données dans un entrepôt spécifique. (…) les décisions d’ouverture de données se prennent au niveau de l’établissement et non pas au niveau de l’agent. » (Ouverture des données de recherche – Guide d’analyse du cadre juridique en France).


Une analyse synthétique du cadre juridique concernant les données de la recherche a été élaboré par le Pôle IST de l’Ecole des Ponts de ParisTech. Elle offre un éclairage sur le droit des données.


Afin d’aider les chercheurs à prendre la décision d’ouvrir ses données en respectant les aspects juridiques et éthiques, le Cirad a conçu l’arbre de situation « Aide à la décision sur la diffusion des données de recherche ». Il permet d’identifier les principales restrictions et les conditions de la diffusion de données.

 

Pour toute question concernant la gestion et l’ouverture de vos données de recherche, n’hésitez pas à nous contacter : donnees-recherche@universite-paris-saclay.fr

  1. Loi CADA
  2. Loi Valter
  3. Loi pour une république numérique
  4. Le règlement général sur la protection des données - RGPD | CNIL