torchTextClassifiers, un framework en PyTorch pour la classification de texte
Meilame Tayebjee
Insee, SSP Lab
2025-12-12
Pour suivre la présentation…
fastText : en production, mais archivé
- fastText : le go-to pour la classification de texte à l’Insee
- Efficace, performant, mis en production pour la codification APE…
- …mais repo archivé depuis le 19/03/2024
Enjeux
- La non-maintenance de la librairie : à terme, risques de maintenance, de compatibilité…
- Surtout : freine les possibilités de modernisation
- Dans le même temps, un éco-système deep learning/ NLP très dynamique: PyTorch, Hugging Face…
de torchFastText à torchTextClassifiers
- évolution du package initial vers un toolkit (ou un unifying framework) de la classification de texte avec variables catégorielles
- d’autres exemples de toolkits en PyTorch : Pythae pour les VAE, TorchSeg pour la segmentation…
- conceptualisation des différents composants d’un modèle de classification de texte
- connexion avec l’eco-système Hugging Face
- Objectif:
- manipulation de ces composants, instantiation rapide et entraînement facilité de différentes architectures classiques
- en faire le standard de codification automatique au niveau institutionnel (Insee / SSM / INS européens)
- Destinataires: tous ceux qui veulent entraîner leur propre modèles maisons à taille réduite, avoir la main sur leur architecture et qui ne peuvent utiliser les gros modèles d’Hugging Face !
Zone d’intérêt de la librairie
![]()
D’un point de vue production
2️⃣ Présentation du package
Structure générale
Lien vers la documentation
![]()
https://inseefrlab.github.io/torchTextClassifiers/
Merci de votre attention !