Sujets & Projets

Le sprint vise 4 sujets portés chacun par un·e référent·e volontaire. Les projets ci-dessous sont des projets open source réels, utilisés quotidiennement dans l’écosystème data science du service public.

Sujets confirmés

Active Tigger

CREST / ENSAE — Emilien Schultz

Logiciel open source d'annotation collaborative de textes pour les sciences sociales computationnelles. Intègre l'apprentissage actif, le fine-tuning de classifieurs encodeurs, BERTopic et des outils d'IA générative.

Documentation

Tests

Code

Issues

→ GitHub

→ Site

SNDSTools

INSEE DEE / Inria / DREES — Matthieu Doutreligne

Boîte à outils Python/R pour faciliter l'accès et l'exploitation des données du Système National de Données de Santé (SNDS). Projet co-développé avec des équipes hospitalières et de l'Inria.

Documentation

Issues

Tests

Exemples

→ Site du projet

CanaR

CEREQ — Florian Givernaud

Outil CLI open source pour déployer en autonomie des chatbots personnalisés avec du RAG. Utilisable en local ou industrialisable en CI/Docker. Extension MCP à l'étude.

Documentation

Code

Issues

Tests

→ GitHub

UtilitR

DREES / OSOL — Julien Blasco

Documentation collaborative de R à destination des agents du Service Statistique Public. Référence de l'écosystème SSP pour l'utilisation de R en pratique professionnelle.

Documentation

Traduction

Issues

Exemples

→ Lire utilitR

Sujets divers

En plus des projets présentés ci-dessus, les participants pourront aussi contribuer de façon individuelle à d’autres projets open source largement utilisés par les data scientists.

Une liste de projets/sujets potentiels est disponible sur la page suivante (liste bien sûr non exhaustive) : Divers

Types de contributions accessibles

Contribuer à l’open source ne se limite pas au code. Voici ce que vous pouvez faire, quel que soit votre profil :

Type	Ce que c’est
📖 Documentation	Tutoriels, exemples d’usage, correction de docs obsolètes
🌐 Traduction	Traduire des pages de doc en français
🐛 Signalement de bugs	Rédiger des issues claires et reproductibles
✅ Tests	Ajouter des cas de test, tester sur des données réelles
🎨 Design & UX	Amélioration de messages d’erreur, de la doc utilisateur
🧹 Qualité de code	Typos, linting, refactoring mineur
💻 Code	Correction de bugs, nouvelles fonctionnalités
📊 Données & exemples	Notebooks de démo, jeux de données d’exemple