Cas d’usage de Label Studio à Sirene

Présentation pour Statec Luxembourg

9 novembre 2026

1️⃣ Contexte

Contexte

  • Sirene est le répertoire des entreprises françaises
  • Mise en place d’un guichet unique pour les formalités d’entreprises
  • Un code APE est attribué à chaque entreprise
  • Fin 2022: Première mise en production d’un modèle de ML pour la codification APE
  • Début 2024:
    • Refonte du répertoire Sirene
    • Bascule officielle vers l’application Sirene 4
    • Fin du système expert pour la codification de l’ancienne application Sirene 3
    • Préparation à la nouvelle nomenclature: NAF 2025
  • Conséquence : Données de test Sirene 3 obsolètes, révision de la NAF et donc des outputs du modèle à anticiper

Deux principaux besoins

  • Absence d’un gold standard pour évaluer notre modèle en production en NAF rev 2 i.e NAF 2008
  • Absence de données en NAF 2025 pour notre futur modèle (changement d’output)

Deux campagnes d’annotation

  • 1 semestre par campagne
  • Des ressources limitées
  • Une campagne en NAF rev 2 pour évaluer notre modèle en production
    • Moyens à dispositions: 7 experts pour évaluer la qualité de codification
  • Une campagne en NAF 2025 pour notre futur modèle
    • Moyens à dispositions: 25 experts pour enrichir un jeu de données en NAF 2025
    • Formation en parallèle des experts en NAF 2025

Données

  • Prédiction du code APE à partir des descriptifs d’activités
  • \(\approx\) 10 millions d’obs. issues de Sirene 3 couvrant la période 2014-2022
  • \(\approx\) 3 millions d’obs. issues de Sirene 4 à partir de fin 2022
  • Données labellisées par Sicore ou par un gestionnaire
  • Structure hiérarchique de la nomenclature

La nomenclature hiérarchique de l’APE

Niveau Code Libellé Taille
Section H Transports et entreposage 21
Division 52 Entreposage et services auxiliaires des transports 88
Groupe 522 Services auxiliaires des transports 272
Classe 5224 Manutention 615
Sous-classe 5224A Manutention portuaire 732

Calendrier pour l’adoption de la nouvelle NAF 🗓️

  • Mi-octobre 2025 ➡️ double codification en NAF 2025
    • Sirus : recodification du stock pour fin 2025
    • Sirene : Intégration de la NAF 2025 en flux et d’une infrastructure MLOps-compatible
  • 2026 ➡️ amélioration de la codification en NAF 2025
  • 2027 ➡️ codification officielle en NAF 2025 avec maintien de la codification NAF 2008

NAF 2025 : quels changements ?

  • Au niveau 5 : 746 sous classes contre 732 auparavant
  • Principalement des éclatements au niveau de la classe (niveau 4) … mais pas que !
  • 551 classes univoques, correspondance 1-pour-1 ➡️ cas idéal ! 👌

NAF 2025 : les cas multivoques

  • 181 classes multivoques, correspondance 1-pour-N ➡️ cas problématiques ! 🚩
  • Besoin d’un expert pour déterminer le nouveau code
Afficher la distribution des codes multivoques
1-to-N # occurence
2 109
3 30
4 24
5 6
6 4
8 1
9 2
21 1
27 1
36 1
38 2

Enjeux et besoins multiples

  • Maintenance de l’application côté métier
  • Gérer la saisie de plusieurs participants…
  • Mener une campagne d’annotation ➡️ animation d’un réseau
  • Faciliter la maintenance ➡️ besoins d’automatiser
  • Assurer la persistence des données annotées
  • Prendre en compte les retours, difficultés, commentaires

Données à annoter

  • Issues de cas traités en gestion courante dans Sirene 4 : ~ 4millions provenant du Guichet Unique

Données utilisées

  • Une observation consiste en :
  • Description textuelle de l’activité - text
    • Code APE vrai labelisé par le moteur de règles –- APE_SICORE (732 modalités)
    • un descriptif textuel de l’activité – LIB_SICORE
    • la nature de l’activitéNAT (23 modalités)
    • le type de la liasseTYP (15 modalités)
    • le type d’évènementEVT (24 modalités)
    • la surface (\(m^2\))SUR (4 modalités)

2️⃣ Présentation et cas d’usage

Label Studio

  • Label Studio: Plateforme open source de labellisation de données.

Différentes types de données

  • Entraînement ou évaluation
  • Texte: évaluer NER, fine-tuning, RAG, reranker …
  • Image : OCR, segmentation sémantique, détection, …
  • Son : classification audio, d’intention, …

Problématiques déjà pensées par l’outil

  • Gestion accès concurrent des participants
  • Possibilité de passer une tâche (skip)
  • Ergonomie
  • Petites animations pour briser la monotonie
  • Facilite la saisie de données
  • Rappel des consignes possibles

Modes d’interaction avec Label Studio

  • Gestion des projets:
    • En clic-bouton via l’interface
    • En programmant via l’API de l’application
  • Gestion du stockage:
    • Téléchargement en local
    • Compatible S3

Principe

  • Des données à importer
  • Un template XML pour le formulaire

Pour nos deux cas d’usage

  • Un template pour annoter en NAF rev 2
  • Un template pour annoter en NAF 2025

Répond à nos besoins ?

  • Des limites par rapport à la version Enterprise
  • Version Community (open source) répond largement à nos besoins

3️⃣ Petite démonstration

Demonstration

  • Rapide prise en main from scratch
  • Avantages de l’utilisation de l’API
  • Aperçu final

4️⃣ Perspectives

La cible

  • Mise en production en interne maintenue par nos développeurs
  • Flux d’annotation continu: données de test récentes
  • Améliorer surveillance et maintenance de nos modèles