Journées Data Science & Open Source

Journées Data Science & Open Source

Un sprint de contribution open source pour les data scientists du service public

📅 16–17 juin 2026 📍 Lieu de la transformation publique - 77 avenue de Ségur, 75015 Paris 👥 Réseau SSPHub
S'inscrire

L’essentiel

🌍

Contribuer, c'est pour tout le monde

Traduire une page de doc pandas, signaler un bug dans scikit-learn ou améliorer un tutoriel DuckDB — c'est déjà contribuer. Aucun prérequis technique élevé.

🔧

Améliorons nos outils du quotidien

En tant que data scientists du service public, nous utilisons ces projets tous les jours. Nous pouvons aussi en être des contributeurs actifs.

Qu’est-ce que c’est ?

Le sprint est un événement de 2 jours en présentiel où des data scientists, statisticiens, développeurs et documentalistes du Service Statistique Publique travaillent ensemble sur des projets open source réels.

L’objectif : démystifier la contribution open source et montrer que tout le monde peut apporter de la valeur à des outils utilisés au quotidien — que ce soit par du code, de la documentation, des tests, de la traduction ou du signalement de bugs.

Note

L’ambition est la découverte : explorer le cycle de contribution, se familiariser avec un projet, avancer à son rythme. Que ce soit une issue ouverte, une ligne de doc améliorée ou une PR — tout ce qui est fait compte.

Ce que vous pouvez faire

Les projets open source ont des besoins très concrets et très accessibles :

Type Exemples
📖 Documentation Tutoriels, exemples d’usage, correction de docs obsolètes
🐛 Signalement de bugs Rédiger des issues claires et reproductibles
✅ Tests Ajouter des cas de test, tester sur des données réelles
🌐 Traduction Traduire des pages de documentation en français
🧹 Qualité de code Typos, linting, refactoring mineur
💻 Code Correction de bugs, nouvelles fonctionnalités (profils avancés)

Les projets au programme

Active Tigger

CREST / ENSAE — Emilien Schultz

Logiciel open source d'annotation collaborative de textes pour les sciences sociales computationnelles. Intègre l'apprentissage actif, le fine-tuning de classifieurs encodeurs, BERTopic et des outils d'IA générative.

Documentation

Tests

Code

Issues

SNDSTools

INSEE DEE / Inria / DREES — Matthieu Doutreligne

Boîte à outils Python/R pour faciliter l'accès et l'exploitation des données du Système National de Données de Santé (SNDS). Projet co-développé avec des équipes hospitalières et de l'Inria.

Documentation

Issues

Tests

Exemples

CanaR

CEREQ — Florian Givernaud

Outil CLI open source pour déployer en autonomie des chatbots personnalisés avec du RAG. Utilisable en local ou industrialisable en CI/Docker. Extension MCP à l'étude.

Documentation

Code

Issues

Tests

UtilitR

DREES / OSOL — Julien Blasco

Documentation collaborative de R à destination des agents du Service Statistique Public. Référence de l'écosystème SSP pour l'utilisation de R en pratique professionnelle.

Documentation

Traduction

Issues

Exemples

Aucun article correspondant

Comment ça se passe ?

  1. Choisissez un sujet lors des pitchs du mardi matin (5 min par projet)
  2. Rejoignez un groupe avec un référent qui guide et débloque
  3. Contribuez : les issues sont pré-identifiées, les environnements SSPCloud prêts
  4. Partagez lors de la restitution finale le mercredi après-midi

Infos pratiques

Dates Mardi 16 et mercredi 17 juin 2026
Lieu Lieu de la transformation publique, 77 avenue de Ségur, 75015 Paris
Public Agents du Service Statistique Public (SSP)
Inscription Via formulaire Grist (lien envoyé par SSPHub)
Prérequis Compte GitHub, motivation — c’est tout

Questions ? Rejoignez le canal #ssphub sur Tchap ou contactez l’équipe SSPHub à ssphub-contact@insee.fr. Vous pouvez aussi aller sur le site du réseau.