1 Introduction
L’exploitation de nouvelles sources de données en complément des enquêtes traditionnelles est une orientation majeure du Système Statistique Européen (SSE) pour améliorer les processus de production statistique. Cette évolution s’accompagne d’innovations non seulement méthodologiques mais également des systèmes d’information afin de tirer parti du potentiel de ces sources — plus grande disponibilité, résolution spatio-temporelle accrue, etc. — tout en faisant face à leur complexité et à leurs limites. Parmi ces innovations figurent les méthodes d’apprentissage automatique et leurs applications prometteuses dans les domaines de la codification, des redressements et de l’imputation (Gjaltema 2022). Les multiples défis auxquels font face les instituts statistiques dans ce contexte d’évolution sont abordés dans le Mémorandum de Bucarest sur les statistiques publiques dans une société numérisée, qui anticipe que “la variété des nouvelles sources de données, paradigmes computationnels et outils nécessitera des adaptations de l’architecture métier statistique, des processus, des modèles de production, des infrastructures informatiques, des cadres méthodologiques et de qualité, ainsi que des structures de gouvernance correspondantes”, et invite en conséquence le SSE à évaluer les adaptations requises et à les prioriser (DGINS 2018). Cette évolution est également largement visible dans le cadre du service statistique public (SSP), dont elle constitue l’une des lignes directrices de la stratégie à horizon 2025 (orientation B : “innover et être en première ligne sur les sources de données” INSEE 2016).
Face à ces transformations, de nombreux travaux ont été menés dans le cadre de projets innovants visant à qualifier l’utilisation de sources de données non-traditionnelles dans la production de statistiques publiques. Dans le cadre des projets ESSnet Big Data I (2016-2018) et II (2018-2020), les instituts statistiques nationaux (INS) ont travaillé sur une large gamme de thématiques (offres d’emploi en ligne, transactions financières, traces GPS, etc.) afin de poser les premiers jalons pour l’intégration de ces sources dans les processus de production et d’identifier leurs limites (EUROSTAT 2021). A l’Insee, les travaux sur l’exploitation des données mobiles (Sakarovitch et al. 2018) ou des données de caisse (Leclair et al. 2019) ont permis d’illustrer le potentiel de ces sources pour construire de nouveaux indicateurs ou raffiner des indicateurs existants. Néanmoins, si un travail conséquent a été consacré au développement de cadres méthodologiques (Descy et al. 2019; Salgado et al. 2020), de lignes directrices sur la qualité (Kowarik and Six 2022), ainsi qu’à la conception de processus sécurisant l’acquisition de données dans le cadre de partenariats avec des acteurs privés (Ricciato et al. 2018), les infrastructures informatiques et les compétences nécessaires pour gérer ces nouveaux objets sont restées peu abordées dans la littérature.
On désigne généralement par “big data” les données qui se distinguent par leur volume (souvent de l’ordre de plusieurs centaines de Go voire du To), leur vélocité (vitesse de génération, parfois proche du temps réel) ou leur variété (données structurées mais aussi non structurées, telles que du texte ou des images). Cette caractérisation s’applique naturellement aux données massives générées de manière automatique par les comportements individuels (données mobiles, données de caisses) ou encore aux données récupérées depuis internet via des méthodes de web scraping. Mais elle est également pertinente pour caractériser certaines sources de nature administrative déjà utilisées pour la production statistique. Le projet Résil en est une bonne illustration dans la mesure où il repose sur l’appariement de multiples sources administratives volumineuses (DSN, POTE, etc.) devant être accueillies avec différentes temporalités — dont certaines en continu, comme le RNIPP — et dans des formats hétérogènes, plus ou moins structurés (Lefebvre, Soulier, and Tortosa 2024). Dans les deux cas, l’intégration de telles sources dans un processus de production statistique pose des défis qui se situent au confluent de la méthodologie statistique et de la technique informatique, et relèvent ainsi du domaine de la data science. Dans ses multiples acceptions, le terme data scientist reflète en effet l’implication croissante des statisticiens dans le développement informatique et l’orchestration de leurs opérations de traitement des données, au-delà des seules phases de conception ou de validation (Davenport and Patil 2012). Hors si l’on observe un nombre croissant de statisticiens publics formés aux méthodes de data science, leur capacité à tirer pleinement parti des sources non-traditionnelles pour la production statistique se heurte à plusieurs défis.
Un premier défi réside dans l’absence d’infrastructures informatiques adaptées aux nouvelles sources de données et aux nouvelles méthodes exploitées par les INS. Par exemple, les sources big data nécessitent de très grandes capacités de stockage et s’appuient souvent sur des infrastructures et des méthodes de calcul distribués pour être traitées en temps raisonnable (Liu 2013). De même, l’adoption de nouvelles méthodes statistiques basées sur des algorithmes d’apprentissage automatique requiert de la puissance de calcul, en particulier des GPUs (processeurs graphiques) dans le cadre du traitement du texte ou de l’image (Saiyeda and Mir 2017). De telles ressources sont rarement disponibles dans les infrastructures informatiques traditionnelles. Lorsque des infrastructures de calcul adaptées sont disponibles, comme les supercalculateurs (HPC) utilisés dans certains domaines de recherche, elles nécessitent des compétences spécifiques, notamment pour leur mise en place et leur maintenance, qui sont rarement disponibles au sein des INS. Pour lever cette barrière, il est nécessaire d’adopter des infrastructures informatiques qui reflètent les besoins des projets de data science actuels en permettant de découpler le stockage du traitement de la donnée, afin de s’adapter rapidement à l’évolution des besoins.
Un autre défi majeur est de mettre à disposition des statisticiens des environnements de développement leur permettant d’expérimenter librement. Cette agilité est limitée lorsque les environnements de calcul dépendent excessivement des départements informatiques pour provisionner des ressources ou installer de nouveaux logiciels. Dans les configurations traditionnelles où les statisticiens effectuent leurs calculs sur des ordinateurs personnels ou des bureaux virtuels sur des architectures centralisées1, les départements informatiques privilégient généralement la sécurité et la stabilité du système là où l’innovation réside dans la capacité à intégrer rapidement de nouveaux outils. De plus, la rigidité de ces environnements rend difficile la mise en œuvre de certaines bonnes pratiques de développement. Par exemple, la reproductibilité des traitements statistiques n’est pleinement possible que dans des environnements dont les statisticiens peuvent eux-mêmes spécifier les caractéristiques (version du langage statistique, version des packages, librairies système nécessaires, etc.) (L’Hour, Le Saout, and Rouppert 2022). L’enjeu est donc de concevoir des environnements agiles qui favorisent l’innovation sans compromettre la sécurité des processus de production.
1 AUSv3
est un exemple d’une telle infrastructure. Les utilisateurs y accèdent via leur poste de travail, qui sert de point d’accès à un bureau virtuel qui “reproduit” l’expérience habituelle du poste de travail. Néanmoins, les calculs qui sont lancés — via R
ou Python
par exemple — sont effectués sur des machines virtuelles (VM) de calcul dédiées, et non sur le poste de travail lui-même.
Un troisième défi concerne la difficulté de passer des expérimentations innovantes à des solutions en production. Même lorsque les statisticiens ont accès à des environnements “bac à sable” leur permettant par exemple de développer une application interactive ou d’entraîner un modèle, la transition vers le déploiement en production de tels objets est coûteuse. Les environnements de production diffèrent souvent des environnements de développement, ce qui peut entraîner des coûts de développement supplémentaires importants pour passer d’une preuve de concept à une solution industrialisée qui rend du service à des utilisateurs dans la durée. Par exemple, dans le cas des projets d’apprentissage automatique, les modèles déployés nécessitent un suivi continu pour s’assurer qu’ils conservent leur performance et leur utilité au fil du temps, ce qui requiert généralement des ré-entraînements périodiques. Ainsi, notre choix doit s’orienter vers des infrastructures informatiques qui d’une part permettent de mettre à disposition des environnements de développement calqués sur les environnements de production, et qui d’autre part favorisent une collaboration plus continue entre statisticiens et équipes informatiques dans la gestion du cycle de vie des projets de data science.
Ces différents défis ont un thème sous-jacent commun : le besoin d’une plus grande autonomie. La capacité des méthodes de data science à améliorer la production des statistiques publiques dépend crucialement de la capacité à intégrer de nouvelles sources et de nouvelles méthodes de traitement de la donnée dans les processus statistiques. Et cette capacité dépend à son tour de la disponibilité d’environnements de calcul adaptés aux besoins de la data science moderne (capacités de stockage suffisantes, infrastructures distribuées, disponibilité de GPUs) permettant aux statisticiens de s’approprier de nouvelles méthodologies et de nouveaux outils hors des contraintes des environnements informatiques traditionnels. Avec cet article, notre objectif est de montrer comment les technologies cloud apportent une réponse globale à ces défis, en offrant aux statisticiens des environnements qui les rendent autonomes dans l’accès aux ressources nécessaires à leurs traitements en self tout en les rapprochant des infrastructures de production déployées à l’Insee.
La Section 2 offre une analyse approfondie des derniers développements de l’écosystème de la donnée, mettant en lumière les choix technologiques qui ont façonné le développement d’un environnement de calcul moderne à l’Insee, adapté aux besoins spécifiques de la data science. Nous montrons comment certaines technologies dites cloud-native, comme la conteneurisation et le stockage objet, permettent de créer des environnements évolutifs et flexibles qui favorisent l’autonomie tout en promouvant la reproductibilité des projets statistiques. Malgré leurs atouts, la disponibilité de ces technologies n’implique pas leur adoption dans l’organisation, dans la mesure où elles s’avèrent complexes à configurer du point de vue informatique et nécessitent une adaptation de la part des statisticiens pour les exploiter dans le cadre de projets statistiques. Dans la Section 3, nous détaillons comment le projet Onyxia, développé à l’Insee, a permis de mettre les technologies cloud au service des statisticiens grâce à une interface dynamique et un catalogue étendu de services de data science prêts à l’emploi. Enfin, la Section 4 illustre l’application pratique de ces technologies à un projet innovant de l’Insee : la classification des activités des entreprises françaises (APE) à l’aide de méthodes d’apprentissage automatique. Ce retour d’expérience vise à montrer comment l’utilisation de ces technologies permet de faciliter et fiabiliser la mise en production de modèles d’apprentissage en permettant d’appliquer les bonnes pratiques issues du MLOps.