Journée méthodologie statistique 2025
25 novembre 2025
1️⃣ Introduction
2️⃣ Nouvelle nomenclature et données d’entraînement
3️⃣ Annotations humaines et virtuelles
4️⃣ Méthodologie
5️⃣ Résultats
6️⃣ Conclusion
7️⃣ Remerciements
Loi PACTE
À partir du 1er janvier 2023, l’ensemble des formalités d’entreprise doit être déposé en ligne auprès d’un organisme unique.
INPI = Institut National de la Propriété Industrielle
Principal flux d’alimentation des déclarations du répertoire Sirene
Fin des Centre de Formalités des Entreprises (CFE)
➡️ description libre du libellé d’activité: texte non-structuré
Afficher un exemple de libellé d’activité
Je souhaite développer dans le nettoyage et entretien des bureaux d'entreprise : changelent de poubelles , aspirateur, serpillère
Sirene = Système Informatique pour le Répertoire des Entreprises et de leurs Établissements
➡️ Mis en place d’un modèle d’apprentissage supervisé fin d’année 2022.
Malgré l’absence naturelle de données, comment entraîner notre modèle en NAF 2025 ?
Jeu d’apprentissage issues de Sirene 4: \(~2.7\) millions d’observations
| Part de multivoques | Part d’univoques |
|---|---|
| 25 % | 75 % |
| Part de multivoques | Part d’univoques |
|---|---|
| 52 % | 48 % |
➡️ \(~1.4\) millions de multivoques à recoder manuellement !
Actions possibles: attribuer un code, déléguer la tâche ou classer comme incodables
Dans quelle mesure, peut-on tirer profit des LLM ?
Prompt système identique pour toutes les observations
Afficher le prompt sytème
Tu es un expert de la Nomenclature statistique des Activités économiques dans la Communauté Européenne (NACE). Tu es chargé de réaliser le changement de nomenclature. Ta mission consiste à attribuer un code NACE 2025 à une entreprise, en t'appuyant sur le descriptif de son activité et à partir d'une liste de codes proposés (identifiée à partir de son code NACE 2008 existant). Voici les instructions à suivre :
1. Analyse la description de l'activité principale de l'entreprise et le code NACE 2008 fourni par l'utilisateur.
2. À partir de la liste des codes NACE 2025 disponible, identifie la catégorie la plus appropriée qui correspond à l'activité principale de l'entreprise.
3. Retourne le code NACE 2025 au format JSON comme spécifié par l'utilisateur. Si la description de l'activité de l'entreprise n'est pas suffisamment précise pour identifier un code NACE 2025 adéquat, retourne `null` dans le JSON.
4. Évalue la cohérence entre le code NACE 2008 fourni et la description de l'activité de l'entreprise. Si le code NACE 2008 ne semble pas correspondre à cette description, retourne `False` dans le champ `nace08_valid` du JSON. Note que si tu arrives à classer la description de l'activité de l'entreprise dans un code NACE 2025, le champ `nace08_valid` devrait `True`, sinon il y a incohérence.
5. Réponds seulement avec le JSON complété aucune autres information ne doit être retourné.
Un prompt spécifique pour chaque observation comprenant :
Une instruction sur le format de réponse attendu
*