Codification automatique de l’activité principale des entreprises

Développer un algorithme de machine learning pour automatiser la classification de l’activité principale des entreprises et mise en production
Python
codification automatique
fasttest
package
en production
MLFlow
Author

Nicolas

Published

January 1, 2022

Synthèse du projet

Codification automatique de l’activité principale des entreprises
Détail du projet La codification de l’activité principale exercée (APE) des entreprises à partir de descriptions d’activité (sous forme de texte libre) dans le répertoire Sirene était auparavant réalisée grâce à 6 environnements de codification déterministes mobilisant un nombre énorme de règles de décision. Le but de l’expérimentation est de tester les performances des modèles d’apprentissage statistique pour prédire la catégorie d’APE dans le cadre de la refonte du répertoire Sirene et de la mise en place d’un guichet unique.
Acteurs Insee
Résultats du projet Le modèle développé présente des performances similaires aux modèles précédents, en les automatisant, et propose par ailleurs une aide à la décision. Le modèle a par ailleurs été mis en production, en appliquant quand cela était possible les principes MLOps.
Les présentations et supports écrits concernant le projet sont accessibles sur ce site.
Code du projet Dépôts de code accessibles ici. Ils comprennent :
- Code relatif à l’annotation de données à l’aide de Label Studio ;
- Code d’une API web de codification déployée sur le SSP Cloud ;
- Code qui implémente un dashboard de visualisation permettant de surveiller l’activité d’un modèle de codification en production et accessible via une API web ;
- Code pour l’entraînement de modèles de classification de l’APE.

Documents relatifs au projet

No matching items