Journées Data Science & Open Source

Un sprint de contribution open source pour les data scientists du service public

📅 16–17 juin 2026 📍 Lieu de la transformation publique - 77 avenue de Ségur, 75015 Paris 👥 Réseau SSPHub

L’essentiel

🌍

Contribuer, c'est pour tout le monde

Traduire une page de doc pandas, signaler un bug dans scikit-learn ou améliorer un tutoriel DuckDB — c'est déjà contribuer. Aucun prérequis technique élevé.

🔧

Améliorons nos outils du quotidien

En tant que data scientists du service public, nous utilisons ces projets tous les jours. Nous pouvons aussi en être des contributeurs actifs.

Qu’est-ce que c’est ?

Le sprint est un événement de 2 jours en présentiel où des data scientists, statisticiens, développeurs et documentalistes du Service Statistique Publique travaillent ensemble sur des projets open source réels.

L’objectif : démystifier la contribution open source et montrer que tout le monde peut apporter de la valeur à des outils utilisés au quotidien — que ce soit par du code, de la documentation, des tests, de la traduction ou du signalement de bugs.

Note

L’ambition est la découverte : explorer le cycle de contribution, se familiariser avec un projet, avancer à son rythme. Que ce soit une issue ouverte, une ligne de doc améliorée ou une PR — tout ce qui est fait compte.

Ce que vous pouvez faire

Les projets open source ont des besoins très concrets et très accessibles :

Type	Exemples
📖 Documentation	Tutoriels, exemples d’usage, correction de docs obsolètes
🐛 Signalement de bugs	Rédiger des issues claires et reproductibles
✅ Tests	Ajouter des cas de test, tester sur des données réelles
🌐 Traduction	Traduire des pages de documentation en français
🧹 Qualité de code	Typos, linting, refactoring mineur
💻 Code	Correction de bugs, nouvelles fonctionnalités (profils avancés)

Les projets au programme

Active Tigger

CREST / ENSAE — Emilien Schultz

Logiciel open source d'annotation collaborative de textes pour les sciences sociales computationnelles. Intègre l'apprentissage actif, le fine-tuning de classifieurs encodeurs, BERTopic et des outils d'IA générative.

Documentation

Tests

Code

Issues

→ GitHub

→ Site

SNDSTools

INSEE DEE / Inria / DREES — Matthieu Doutreligne

Boîte à outils Python/R pour faciliter l'accès et l'exploitation des données du Système National de Données de Santé (SNDS). Projet co-développé avec des équipes hospitalières et de l'Inria.

Documentation

Issues

Tests

Exemples

→ Site du projet

CanaR

CEREQ — Florian Givernaud

Outil CLI open source pour déployer en autonomie des chatbots personnalisés avec du RAG. Utilisable en local ou industrialisable en CI/Docker. Extension MCP à l'étude.

Documentation

Code

Issues

Tests

→ GitHub

UtilitR

DREES / OSOL — Julien Blasco

Documentation collaborative de R à destination des agents du Service Statistique Public. Référence de l'écosystème SSP pour l'utilisation de R en pratique professionnelle.

Documentation

Traduction

Issues

Exemples

→ Lire utilitR

Comment ça se passe ?

Choisissez un sujet lors des pitchs du mardi matin (5 min par projet)
Rejoignez un groupe avec un référent qui guide et débloque
Contribuez : les issues sont pré-identifiées, les environnements SSPCloud prêts
Partagez lors de la restitution finale le mercredi après-midi

Infos pratiques

Dates	Mardi 16 et mercredi 17 juin 2026
Lieu	Lieu de la transformation publique, 77 avenue de Ségur, 75015 Paris
Public	Agents du Service Statistique Public (SSP)
Inscription	Via formulaire Grist (lien envoyé par SSPHub)
Prérequis	Compte GitHub, motivation — c’est tout

Questions ? Rejoignez le canal #ssphub sur Tchap ou contactez l’équipe SSPHub à ssphub-contact@insee.fr. Vous pouvez aussi aller sur le site du réseau.