Authors

Romain Avouac

Thomas Faria

Frédéric Comte

Mettre les technologies cloud au service de la production statistique

Résumé

Ces dernières années, des statisticiens formés aux méthodes de data science ont rejoint les instituts nationaux de statistique, avec l’objectif d’exploiter des sources de données non traditionnelles et des méthodes d’apprentissage automatique pour améliorer la production des statistiques publiques. Malgré leur expertise, ces professionnels rencontrent des obstacles majeurs, notamment l’accès à des ressources de calcul insuffisantes, des environnements de développement rigides ne favorisant pas le travail collaboratif, ainsi qu’un manque d’outils facilitant la transition des expérimentations innovantes vers des solutions prêtes pour la production.

Cet article présente Onyxia, un projet open-source développé pour répondre à ces défis en permettant aux organisations de construire des environnements modernes et flexibles de data science, renforçant ainsi l’autonomie des statisticiens. Avec Onyxia et son instance de démonstration, le SSP Cloud, nous montrons comment les technologies cloud peuvent être rendues facilement accessibles, favorisant l’innovation, la collaboration et la reproductibilité dans le domaine des statistiques publiques. À travers un exemple concret sur la codification des activités économiques des entreprises françaises (code APE), nous illustrons comment ces outils ont permis d’opérationnaliser des modèles de machine learning en accord avec les principes du MLOps, marquant ainsi une avancée significative dans la valorisation des projets de data science à l’Insee.