Les données de la recherche [bêta]

Les données de la recherche sont une matière première de la connaissance. La France a décidé d'inscrire cet objet essentiel de la recherche scientifique dans deux politiques nationales, le Plan national pour la science ouverte et la politique des données, des algorithmes et des codes sources. Notre ambition est de faire en sorte que les données produites par la recherche publique française soient progressivement structurées en conformité avec les principes FAIR (faciles à trouver, accessibles, interopérables, réutilisables), préservées et, quand cela est possible, ouvertes.

Gérer, préserver, ouvrir ou partager les données sont autant d'actions qui bénéficient aux progrès de la recherche scientifique. Elles permettent de mutualiser les efforts de production et de collecte des données au sein de la communauté scientifique, de consolider et de multiplier les résultats issus de leur exploitation.

L'obligation d'ouverture des données de la recherche publique est posée par la loi pour une République numérique de 2016. Elle est limitée par les exceptions légitimes encadrées par la loi, par exemple en ce qui concerne le secret professionnel, les secrets industriels et commerciaux, les données personnelles ou les contenus protégés par le droit d'auteur.

Contrairement aux publications, il n'existe pas de grandes bases de référence recensant l'ensemble des données produites par la recherche. Bien qu'il existe des entrepôts qui permettent aux chercheurs de partager des données, parfois de façon massive, ces entrepôts ne reflètent pas toute la diversité thématique et la multiplicité des données sous-jacentes aux résultats de la recherche française. Pour construire les indicateurs crédibles sur les données partagées pour cette première édition, le baromètre de la science ouverte prend le parti de s'appuyer sur la littérature scientifique produite par les chercheurs et de mobiliser les techniques d'intelligence artificielle pour en extraire des informations. Comme toutes les approches scientifiques ne produisent ou n'utilisent pas des données, nous ne retenons dans le corpus de publications étudié que celles qui mentionnent explicitement des jeux de données. Nous distinguons les cas mentionnant l'utilisation et/ou la production de données.

Cette méthodologie pionnière, fondée sur la fouille de textes a été développée grâce au Plan de Relance, en partenariat avec l'Université de Lorraine et Inria. Cette approche n'est conduite qu'à partir des publications pour lesquelles le texte intégral a pu être téléchargé dans le cadre du baromètre.

Cette analyse mobilise les logiciels libres GROBID et DataStet.

Les données de la Recherche

Retour à la page précédente