Codification automatique de l’APE à l’Insee

Ateliers concepteurs #1

4 avril 2025

1️⃣ Contexte

Contexte

  • Sirene est le répertoire des entreprises françaises
  • Un code APE est attribué à chaque entreprise
  • Début 2023:
    • Refonte du répertoire Sirene
    • Mise en place d’un guichet unique pour les formalités d’entreprises
    • Forte baisse de performance de l’outil de codification historique
    • Equipes Sirene déjà surchargées avant la refonte
  • Conséquence : besoin d’un nouvel outil… en innovant

Données

  • Prédiction du code APE à partir des descriptifs d’activités
  • \(\approx\) 10 millions d’obs. issues de Sirene 3 couvrant la période 2014-2022
  • Données labellisées par Sicore ou par un gestionnaire
  • Structure hiérarchique de la nomenclature

La nomenclature hiérarchique de l’APE

Niveau Code Libellé Taille
Section H Transports et entreposage 21
Division 52 Entreposage et services auxiliaires des transports 88
Groupe 522 Services auxiliaires des transports 272
Classe 5224 Manutention 615
Sous-classe 5224A Manutention portuaire 732

Données utilisées

  • Une observation consiste en :
  • Description textuelle de l’activité - text
    • Code APE vrai labelisé par le moteur de règles –- APE_SICORE (732 modalités)
    • un descriptif textuel de l’activité – LIB_SICORE
    • la nature de l’activitéNAT (23 modalités)
    • le type de la liasseTYP (15 modalités)
    • le type d’évènementEVT (24 modalités)
    • la surface (\(m^2\))SUR (4 modalités)

Schéma du fonctionnement du modèle fastText

  • Un score de confiance pour chacun des labels
  • Lors de l’entraînement, le modèle est censé apprendre à maximiser ce score pour le vrai label
  • Une métrique pour évaluer la confiance du modèle en sa prédiction : l’indice de confiance

2️⃣ Situation actuelle

Le paysage administratif

Construction d’un indice de confiance

  • Objectif : discriminer les mauvaises des bonnes prédictions.
  • Indice de confiance retenu : différence entre les deux probabilités les plus élevées.

Mise en production actuelle

  • 2 issues possibles :
    • codification automatique 🚀
    • reprise gestionnaire 🔍

Codification du flux de liasses

Reprise gestionnaire

Codification automatique sur l’IHM

Reprise gestionnaire sur l’IHM

3️⃣ Une modernisation continue

Des défis en cours

  • Refonte du système de transfert du modèle entre le Lab et les équipes métiers, via une API locale sur Kubedev
  • Surveillance des performances du modèle
  • Changement de nomenclature (Sirene 4, NAF2025) nécessite des adaptations de méthodologie et des ré-entraînements réguliers
  • Modernisation du modèle dans un contexte dynamique : internalisation du développement via le package torchFastText

Utilisation du modèle

  • Modèle mis à disposition via une API conteneurisée :

Le modèle NAF 2025