Impacts environnementaux de la gestion et de l’ouverture des données
Données et science ouverte
La science ouverte c'est-à-dire l'ouverture en accès libre et gratuit des produits de la recherche (publications, données, protocoles, codes sources, logiciels), s'est progressivement imposée dans le cades des appels d'offres européens (H2020 puis Horizon Europe) sur la base du principe " aussi ouvert que possible, aussi fermé que nécessaire".
Cette approche se retrouve également dans les appels d'offres de l'Agence Nationale de la Recherche (ANR) en application de la loi française pour une République numérique et du plan national pour la science ouverte. Ainsi, l'ouverture des données de la recherche répond non seulement à une obligation légale mais aussi à une volonté politique nationale et internationale à des fins de transparence notamment. Les données représentent un enjeu crucial pour les établissements d'enseignement supérieur et autres organisations. Au-delà de l'importance stratégique du stockage des données et des coûts inhérents à leur sécurisation, il est important de prendre en compte les impacts environnementaux que génèrent les données durant les différentes phases de leur cycle de vie : utilisation, sauvegarde, archivage, suppression et restauration. Outre les enjeux liés aux volumes des données, nous avons affaire à des données assez fragmentées et hétérogènes de par leur nature (biologique, environnementale, sociale, géographique, etc.), leur format (texte, numérique, audios, images), leur dispersion sur différents supports de stockage (ordinateur portable, de bureau, supports mobiles (disques durs, clés USB ...), clouds, etc.), de leur qualité et fiabilité, de leur accessibilité et de leur valeur liée aussi bien à l'utilisation prévue de ces données que des circonstance historiques, sociales et géographiques.
La gestion des données de la recherche selon les principes FAIR (Facile à trouver, Accessible, Interopérable et Réutilisable) participe au respect des données et à leur conservation dans des conditions optimisées d’interopérabilité et de réutilisabilité. Néanmoins, l’application des principes FAIR peut également nécessiter de mobiliser d’importantes ressources informatiques pour la conservation et la diffusion des données, ce qui présente des inconvénients majeurs pour l’environnement. Parmi ces inconvénients, nous avons :
- Une croissance exponentielle des volumes de données numériques du fait de l’augmentation des capacités de production de données, sous l’effet de l’essor technologique
- Le risque de sauvegarder « tout et n’importe quoi » en se disant que « ça peut ou pourra servir » sans réflexion préalable.Les bonnes pratiques écologiques en termes de gestion de données :
Pour réduire l’impact de la gestion des données sur l’environnement, plusieurs pistes d’amélioration des pratiques peuvent être envisagées tout au long du cycle de vie de la donnée:
1. Réduire l’impact lié à l’acquisition des données :
Questionner l’utilité de produire tel ou tel jeu de données.
Pour ce faire, il faut commencer par explorer la possibilité que des données équivalentes (accompagnées de métadonnées riches) qu’on pourrait réutiliser existent ailleurs dans des entrepôts.
- Privilégier le moissonnage pour réutiliser des données existantes permet d’éviter la duplication et la redondance des jeux de données et donc de réduire le volume de données.
- En l’absence de données réutilisables pour le projet rendant la collecte indispensable, utiliser des capteurs « lowtech » et réutilisables pour collecter/produire les données.
2. Réduire l’impact lié au traitement, à l’analyse et à la diffusion des données :
- Réduire autant que possible la distance « physique » dans la manipulation des données de sorte que le traitement des données se fasse le plus proche possible du lieu de stockage.
- Choisir des formats de fichiers ouverts (par exemple .csv au lieu de .xls) moins "gourmands" : un fichier avec les mêmes données au format .csv peut être 1 à 10 fois moins volumineux que celui au format .xls par exemple. De plus, penser à limiter le nombre de formats proposés. Eviter les redondances de fichiers, permettre le téléchargement partiel des données et proposer en téléchargement des fichiers compressés permettent de réduire l’impact environnemental lié au stockage et à la diffusion de données qui sont les premières externalités négatives des données en raison des besoins en infrastructures (réseau et Data centers) et terminaux utilisateurs.
- Eviter d’envoyer des pièces jointes pour partager des données : privilégier un lien vers la source des fichiers (lien vers un cloud ou un outil de partage/envoi de fichiers comme FileSender)
3. Réduire l’impact lié au stockage et à la sauvegarde des données :
- Penser le stockage des données produites en fonction de leur usage permet de définir l’utilité de conserver « à chaud » ou « à froid » tel ou tel jeu de données, voire de le conserver tout court. Les « données chaudes » sont régulièrement sollicitées et utilisées et doivent être stockées sur des supports immédiatement accessibles et rapides (réseau local, cloud synchronisé, disques durs interne d’ordinateur personnel (à condition d’avoir une politique de sauvegarde rigoureuse)) (stockage à chaud). Par contre, les données sollicitées uniquement ponctuellement, appelées « données tièdes, voire froides » doivent être stockées sur des supports moins rapides et surtout moins énergivores car, déconnectés (disque dur, bandes magnétiques, disques optiques (CD), cloud ou data centers non-synchronisés, etc.) (stockage à froid). Le stockage à froid consiste ainsi à sauvegarder et récupérer des données (sur le court terme) et à archiver (sur le long terme) les données rarement utilisées ou dont on n’a plus besoin.
- Mutualiser les services pour créer des infrastructures (locales de préférence) de « stockage à froid » pour des données faiblement utilisées (voir ci-dessus) qui pourront être accessibles à la demande sur la base de délais de traitement raisonnables et acceptables. Dans cette logique de mutualisation, on peut penser par exemple à AgroDataRing, qui est une infrastructure partagée et mutualisée pour le stockage longue durée.
4. Réduire l’impact lié à l’archivage des données :
- Toutes les données n’ont pas vocation à être archivées. Il est important de faire le tri des données en sélectionnant celles jugées pertinentes à sauvegarder sur la base de critères comme la valeur scientifique reconnue par la communauté, les données ayant valeur de preuve pour les publications, leur intérêt juridique, historique (patrimonial), leur non-reproductibilité, l’intelligibilité des données (grâce à une documentation rigoureuse). Il peut parfois être opportun et suffisant d’archiver un échantillon du jeu de données pour en limiter le volume.
- Toujours privilégier les formats ouverts et pérennes pour assurer un archivage à long terme et la réutilisabilité des données.
- Le Centre Informatique National de l’Enseignement Supérieur (CINES), l’infrastructure de recherche Data Terra ou la TGIR Huma-Num par exemple, peuvent vous accompagner dans cette démarche d’archivage tout en assurant la réutilisabilité des données.
NB : L’ensemble de ces bonnes pratiques écoresponsables doivent être envisagées et réalisées dans le respect, et en accord, avec les principes FAIR.
Références :
1- Didier Mallarino, Sylvie Le Bras, Cyrille Bonamy. Les impacts environnementaux et sociétaux des données : un défi pour l’avenir. Congrès JRES : Les Journées Réseaux de l’Enseignement et de la Recherche, RENATER, May 2022, Marseille, France. -hal-03702208 HAL Id: hal-03702208; https://hal.archives-ouvertes.fr/hal-03702
2- Christine Hadrossek, Joanna Janik, Maurice Libes, Violaine Louvet, Marie-Claude Quidoz, et al. Guide de bonnes pratiques sur la gestion des données de la Recherche. 2023. hal-03152732v2 HAL Id: hal-03152732; https://hal.science/hal-03152732v2
3- https://ecoresponsable.numerique.gouv.fr/docs/2022/guide-de-bonnes-prat…
4- https://opendatafrance.gitbook.io/greendata-pour-un-impact-maitrise-des…
5- https://www.cnil.fr/sites/cnil/files/atoms/files/guide_durees_de_conser…