Les LLM au coeur du réentraînement d’un modèle d’apprentissage en nouvelle nomenclature

Journée méthodologie statistique 2025

Nathan Randriamanana

nathan.randriamanana@insee.fr

Insee, DSE

25 novembre 2025

Brève présentation

Qui suis-je ?
- Data Scientist de l’Insee
- travaille à la Direction des statistiques d’entreprises
- administration du répertoire SIRENE des entreprises

Sommaire

1️⃣ Introduction

2️⃣ Nouvelle nomenclature et données d’entraînement

3️⃣ Annotations humaines et virtuelles

4️⃣ Méthodologie

5️⃣ Résultats

6️⃣ Conclusion

7️⃣ Remerciements

1️⃣ Introduction

Contexte

De plus en plus de modèle ML sont voués à être mis en production à l’Insee cf GUÉDÈS et MAUREL (2024)
- Multiples cas d’usages de codification : COICOP, NA2008, PCS2020, APE
- 🎯 Présentation axée sur l’Activité Principale Exercée (APE) des entreprises
Révision de la Nomenclature d’Activités Française (NAF):
- Adaptation au nouveau paysage économique
- coordination avec la révision européenne de la NACE
Des innovations d’autres INS sur la recodification par LLM notamment Iva Spakulova (2024)
Concurrence forte et mondiale dans le secteur de l’IA générative: course au compute et aux données cf l’essai de Sutton (2019),
Littérature abondante et en plein essor: Patrick Lewis (2020), RANA (2025), Connor Shorten (2024), Haoyu Huang (2025)

La source des données d’entreprises et des libellés d’activités

Loi PACTE

À partir du 1er janvier 2023, l’ensemble des formalités d’entreprise doit être déposé en ligne auprès d’un organisme unique.

INPI = Institut National de la Propriété Industrielle

Office des brevets
Opérateur du Guichet Unique des Entreprises (GUE)

Principal flux d’alimentation des déclarations du répertoire Sirene
Fin des Centre de Formalités des Entreprises (CFE)
➡️ description libre du libellé d’activité: texte non-structuré
Afficher un exemple de libellé d’activité
```
 Je souhaite développer dans le nettoyage et entretien des bureaux d'entreprise : changelent de poubelles , aspirateur, serpillère
```

Le répertoire Sirene

Sirene = Système Informatique pour le Répertoire des Entreprises et de leurs Établissements

Répertoire de référence historique gérant le cycle de vie des entreprises
garant du SIREN, SIRET et de l’APE basé sur la NAF
Bascule de Sirene 3 à Sirene 4 ➡️ traitement en flux
Sicore inefficient face au volume à traiter et particulièrement diversité des libellés

On peut se demander quel est le rôle ou simplement qu’est ce que Sirene dans ce contexte. Depuis les années 70, Sirene est le répertoire de référence qui suit la vie des entreprises, de leur création à leur cessation, parfois même leur réactivation. Il attribue le SIREN, le SIRET et le fameux code APE, celui que vous voyez sur vos tickets de caisse.

L’année dernière, Sirene a connu une refonte historique : fini le monde du tout par batch, où le déclarant devait attendre le prochain traitement. Aujourd’hui, tout se fait en flux continu, quasi en temps réel. À l’instant où je vous parle, des entreprises sont en train d’être enregistrées.

Dans ce contexte, avec un volume élevé et une grande variété de libellés, l’ancien système expert Sicore ne suffisait plus : il surchargeait les équipes et ne permettait de codifier que 30 % des cas.

➡️ Mis en place d’un modèle d’apprentissage supervisé fin d’année 2022.

évolution dans le temps des activités ou des descriptifs ➡️ dérive des données
Cas extrême courant pour la statistique publique ➡️ changement de nomenclature

Malgré l’absence naturelle de données, comment entraîner notre modèle en NAF 2025 ?

2️⃣ Révision de la NAF et jeu d’apprentissage

NAF 2025 : les cas multivoques

Au niveau 5 : 746 sous-classes contre 732 auparavant
181 classes multivoques, correspondance 1-pour-N ➡️ cas problématiques ! 🚩
Besoin d’un expert pour déterminer le nouveau code

Combien représentent-ils ?

Jeu d’apprentissage issues de Sirene 4: \(~2.7\) millions d’observations

Peu en théorie

Table 1: Représentation des multivoques dans la table de correspondance

Part de multivoques	Part d’univoques
25 %	75 %

Beaucoup en pratique

Table 2: Réprésentation des multivoques dans le jeu d’apprentissage

Part de multivoques	Part d’univoques
52 %	48 %

➡️ \(~1.4\) millions de multivoques à recoder manuellement !

3️⃣ Annotations humaines et virtuelles

Campagnes d’annotation

Actions possibles: attribuer un code, déléguer la tâche ou classer comme incodables

En NAF rev 2 ou NAF 2008: gold standard pour évaluer la précision
- 10 000 annotations pour valider la qualité dans la nomenclature actuelle
- Pôle Qualité Sirene ➡️ 6 annotateurs à l’aveugle, sans aide à la codification

En NAF 2025: ground truth pour servir de référence
- 30 000 annotations sur les données multivoques uniques
- réseau complet des experts APE ➡️ environ 25 annotateurs
- avec proposition de codes multivoques en fonction du code en NAF rev 2

6 % de tâches déléguées
6 % de libellés inclassables

Concilier l’expertise et l’innovation

Dans quelle mesure, peut-on tirer profit des LLM ?

4️⃣ Méthodologie appliquée

Méthodologie

🎯 Objectif : Reconstruire un jeu d’entraînement le plus exhaustif possible
💡Principe : considérer les LLMs comme des annotateurs virtuels

Le prompting

Prompt système identique pour toutes les observations

Afficher le prompt sytème

Tu es un expert de la Nomenclature statistique des Activités économiques dans la Communauté Européenne (NACE). Tu es chargé de réaliser le changement de nomenclature. Ta mission consiste à attribuer un code NACE 2025 à une entreprise, en t'appuyant sur le descriptif de son activité et à partir d'une liste de codes proposés (identifiée à partir de son code NACE 2008 existant). Voici les instructions à suivre :
1. Analyse la description de l'activité principale de l'entreprise et le code NACE 2008 fourni par l'utilisateur.
2. À partir de la liste des codes NACE 2025 disponible, identifie la catégorie la plus appropriée qui correspond à l'activité principale de l'entreprise.
3. Retourne le code NACE 2025 au format JSON comme spécifié par l'utilisateur. Si la description de l'activité de l'entreprise n'est pas suffisamment précise pour identifier un code NACE 2025 adéquat, retourne `null` dans le JSON.
4. Évalue la cohérence entre le code NACE 2008 fourni et la description de l'activité de l'entreprise. Si le code NACE 2008 ne semble pas correspondre à cette description, retourne `False` dans le champ `nace08_valid` du JSON. Note que si tu arrives à classer la description de l'activité de l'entreprise dans un code NACE 2025, le champ `nace08_valid` devrait `True`, sinon il y a incohérence.
5. Réponds seulement avec le JSON complété aucune autres information ne doit être retourné.

Un prompt spécifique pour chaque observation comprenant :
- le libellé de l’activité principale de l’entreprise
- l’ancien code NAF 2008 connu
- La liste des codes possibles issues du mapping avec leurs notes explicatives
Une instruction sur le format de réponse attendu

Afficher un exemple de réponse attendue

{
    "codable": true,
    "nace_2008_valid": true,
    "nace2025": "0147J" 
}

Importance du contexte

Illustration avec ChatGPT

Réponse formatée

Illustration avec ChatGPT

Réponse non formatée

Injection du contexte

5️⃣ Résultats

Précisions par modèle

Figure 1: Comparaison fastText vs torchTextClassifiers

En entraînant notre classifieur sur le nouveau jeu d’apprentissage, nous obtenons des performances similaires à celles de la nomenclature actuelle.

Comme dans toute démarche classique de machine learning :

Split train/test/validation pour évaluer la performance
Data editing du jeu d’apprentissage pour corriger les cas problématiques avant la mise en production

Notre futur modèle s’appuiera sur la librairie TorchTextClassifiers, qui sera présenté (par mon collègue, ici présent ?) Jeudi après-midi dans cette même salle.

Cette conclusion montre que notre méthodologie, combinant annotations humaines, LLM et expertise, permet de constituer une base fiable et performante pour la NAF 2025. Elle n’est pas limitée à une nomenclature donnée ni à un classifieur particulier et peut être adaptée à toute problématique similaire, ouvrant des perspectives intéressantes en matière d’innovation.

import { debounce } from "@mbostock/debouncing-input"

6️⃣ Conclusion

7️⃣ Remerciements

Pôle Qualité Sirene
Experts APE
DNE
SSP Lab
RIAS

Références

Connor Shorten, Charles Pierse et al. 2024. « StructuredRAG: JSON Response Formatting with Large Language Models ». arXiv preprint arXiv:2408.11061, août. http://arxiv.org/abs/2408.11061.

GUÉDÈS, Dominique, et Françoise MAUREL. 2024. « Intégration des innovations de traitement de données dans la production statistique : état des lieux et perspectives ». Document interne.

Haoyu Huang, Yongfeng Huang et al. 2025. « Retrieval-Augmented Generation with Hierarchical Knowledge ». arXiv preprint arXiv:2503.10150, mars. http://arxiv.org/abs/2503.10150.

Iva Spakulova, Philip Lee. 2024. « ClassifAI – Exploring the use of Large Language Models (LLMs) to assign free text to commonly used classifications », juillet. https://datasciencecampus.ons.gov.uk/classifai-exploring-the-use-of-large-language-models-llms-to-assign-free-text-to-commonly-used-classifications/.

Patrick Lewis, Aleksandra Piktus et al., Ethan Perez. 2020. « Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks ». arXiv preprint arXiv:2005.11401, mai. http://arxiv.org/abs/2005.11401.

RANA, Anurag. 2025. « RAG (Retrieval-Augmented Generation) vs CAG (Context-Augmented Generation) ». Medium. janvier 2025. https://medium.com/@anuragrana.anu/rag-retrieval-augmented-generation-vs-cag-context-augmented-generation-f789ea24a168.

Sutton, Rich. 2019. « The Bitter Lesson », mars. http://www.incompleteideas.net/IncIdeas/BitterLesson.html.