Cas d’usage de Label Studio à Sirene
Présentation pour Statec Luxembourg
9 novembre 2026
Contexte
- Sirene est le répertoire des entreprises françaises
- Mise en place d’un guichet unique pour les formalités d’entreprises
- Un code APE est attribué à chaque entreprise
- Fin 2022: Première mise en production d’un modèle de ML pour la codification APE
- Début 2024:
- Refonte du répertoire Sirene
- Bascule officielle vers l’application Sirene 4
- Fin du système expert pour la codification de l’ancienne application Sirene 3
- Préparation à la nouvelle nomenclature: NAF 2025
- Conséquence : Données de test Sirene 3 obsolètes, révision de la NAF et donc des outputs du modèle à anticiper
Deux principaux besoins
- Absence d’un gold standard pour évaluer notre modèle en production en NAF rev 2 i.e NAF 2008
- Absence de données en NAF 2025 pour notre futur modèle (changement d’output)
Deux campagnes d’annotation
- 1 semestre par campagne
- Des ressources limitées
- Une campagne en NAF rev 2 pour évaluer notre modèle en production
- Moyens à dispositions: 7 experts pour évaluer la qualité de codification
- Une campagne en NAF 2025 pour notre futur modèle
- Moyens à dispositions: 25 experts pour enrichir un jeu de données en NAF 2025
- Formation en parallèle des experts en NAF 2025
Données
- Prédiction du code APE à partir des descriptifs d’activités
- \(\approx\) 10 millions d’obs. issues de Sirene 3 couvrant la période 2014-2022
- \(\approx\) 3 millions d’obs. issues de Sirene 4 à partir de fin 2022
- Données labellisées par Sicore ou par un gestionnaire
- Structure hiérarchique de la nomenclature
La nomenclature hiérarchique de l’APE
Section |
H |
Transports et entreposage |
21 |
Division |
52 |
Entreposage et services auxiliaires des transports |
88 |
Groupe |
522 |
Services auxiliaires des transports |
272 |
Classe |
5224 |
Manutention |
615 |
Sous-classe |
5224A |
Manutention portuaire |
732 |
Calendrier pour l’adoption de la nouvelle NAF 🗓️
- Mi-octobre 2025 ➡️ double codification en NAF 2025
- Sirus : recodification du stock pour fin 2025
- Sirene : Intégration de la NAF 2025 en flux et d’une infrastructure MLOps-compatible
- 2026 ➡️ amélioration de la codification en NAF 2025
- 2027 ➡️ codification officielle en NAF 2025 avec maintien de la codification NAF 2008
NAF 2025 : quels changements ?
- Au niveau 5 : 746 sous classes contre 732 auparavant
- Principalement des éclatements au niveau de la classe (niveau 4) … mais pas que !
- 551 classes univoques, correspondance 1-pour-1 ➡️ cas idéal ! 👌
Enjeux et besoins multiples
- Maintenance de l’application côté métier
- Gérer la saisie de plusieurs participants…
- Mener une campagne d’annotation ➡️ animation d’un réseau
- Faciliter la maintenance ➡️ besoins d’automatiser
- Assurer la persistence des données annotées
- Prendre en compte les retours, difficultés, commentaires
Données à annoter
- Issues de cas traités en gestion courante dans Sirene 4 : ~ 4millions provenant du Guichet Unique
2️⃣ Présentation et cas d’usage
Label Studio
- Label Studio: Plateforme open source de labellisation de données.
Différentes types de données
- Entraînement ou évaluation
- Texte: évaluer NER, fine-tuning, RAG, reranker …
- Image : OCR, segmentation sémantique, détection, …
- Son : classification audio, d’intention, …
Problématiques déjà pensées par l’outil
- Gestion accès concurrent des participants
- Possibilité de passer une tâche (
skip
)
- Ergonomie
- Petites animations pour briser la monotonie
- Facilite la saisie de données
- Rappel des consignes possibles
Modes d’interaction avec Label Studio
- Gestion des projets:
- En clic-bouton via l’interface
- En programmant via l’API de l’application
- Gestion du stockage:
- Téléchargement en local
- Compatible S3
Principe
- Des données à importer
- Un template XML pour le formulaire
Pour nos deux cas d’usage
- Un template pour annoter en NAF rev 2
- Un template pour annoter en NAF 2025
Répond à nos besoins ?
- Des limites par rapport à la version Enterprise
- Version Community (
open source
) répond largement à nos besoins
Demonstration
- Rapide prise en main from scratch
- Avantages de l’utilisation de l’API
- Aperçu final
La cible
- Mise en production en interne maintenue par nos développeurs
- Flux d’annotation continu: données de test récentes
- Améliorer surveillance et maintenance de nos modèles