scanR, une application pour observer le paysage de la recherche et de l’innovation en France

Agrégation et mise à disposition de données massives sur la recherche et l’innovation en France par des visualisations, des moteurs de recherche ElasticSearch et des API

API
en production
open-data
SIES
datavisualisation
ElasticSearch
Date de publication

1 janvier 2024

Synthèse du projet

scanR, explorer le monde de la recherche et de l’innovation française
Détail du projet scanR est une application web pour aider à caractériser les structures publiques (unités de recherche de tous types, institutions publiques) et privées (entreprises) qui participent à la recherche et à l’innovation en France. scanR aide également à identifier les orientations des travaux des chercheuses et chercheurs actifs en France depuis le début des années 1990.

scanR combine les données structurées sous licence libre (Publications et thèses, participation à des projets de recherche collaboratifs, spin-off, brevets, etc.) et des informations ouvertes directement extraites des sites web des acteurs de la recherche et de l’innovation. Ces informations proviennent ainsi d’environ 13 sources différentes (theses.fr, le baromètre de la science ouverte, HAL, Commission européenne, INPI, ANR, l’office européen des brevets …) et sont notamment obtenues par webscraping, pdf-mining ou appel à des API. Les ressources sont ensuite identifiées et liées entre elles, notamment en utilisant des méthodes d’IA, et puis enrichies.
Une boucle de retours pour augmenter la qualité des données produites est introduite avec la possibilité de demander à corriger des données depuis le site de scanR.
Un moteur de recherche basé sur ElasticSearch permet de rechercher sur le site des thèmes, structures ou auteurs.
Enfin, il est possible d’afficher des interactions entre différentes structures ou thématiques de manière visuelle par une analyse en réseau.
Acteurs Service statistique du Ministère de l’Enseignement Supérieur et de la Recherche (SIES)
Résultats du projet Le projet scanR est en production depuis 2016 et enregistre environ 50 000 visites mensuelles.

- Le projet met à disposition des fiches par structure et auteurs présentant leur organisation, activité, domaines de recherche, source de financement.
- Il propose par ailleurs un moteur de recherche sur les structures, auteurs, financements, publications, brevets de la recherche en France.
- Il met aussi à disposition des outils d’analyse des résultats, notamment des visualisations de graphs.

Le projet met aussi à disposition plusieurs API pour récupérer des données et les données.
Produits et documentation du projet scanR est accessible sur scanr.enseignementsup-recherche.gouv.fr. Ce site comprend :
- la documentation pour accéder aux quatre API disponibles ;
- les différentes sources de données utilisées pour le projet.

Concernant la technologie et la méthodologie utilisée :
- Présentation technique détaillée de scanR scanR - Explore public data on French research and innovation, conférence euroCRIS, novembre 2024 ;
- Mapping scientific communities at scale pour expliquer l’analyse en réseaux
Code du projet - Le code est disponible sur GitHub https://github.com/dataesr/scanr-ui

Projets similaires