Curiexplore, la plateforme de comparaison des politiques nationales d’enseignement et de recherche
Visualisation interactive de l’environnement de l’enseignement et de la recherche dans les différents pays.
📺️ Les présentations et le replay de la journée du réseau, le 1er décembre 2025, sont disponibles
1 janvier 2020
| Classification des données de caisse à partir de machine learning | |
|---|---|
| Détail du projet | Les données de caisse sont utilisées à l’Insee pour le calcul de l’IPC depuis 2010. Les données de caisses donnent en effet pour chaque code-barres, chaque jour et chaque point de ventes les quantités vendues ainsi que le chiffre d’affaires et/ou le prix auquel le produit est vendu. Pour exploiter ces données, il est toutefois nécessaire de savoir quel produit se trouve derrière un code-barres. Actuellement, l’IPC se fonde sur un référentiel de codes-barres, acheté à un prestataire et qui donne une information très détaillée et structurée des caractéristiques de ces produits. Cette information est payante et ne couvre pas l’ensemble des produits. L’expérimentation vise à identifier les étapes de traitement textuel des libellés, ainsi que les méthodes de classification ou autres, permettant de coder automatiquement les libellés, sans passer par le référentiel, dans la nomenclature Coicop pour l’IPC et sur les regroupements utilisés pour Emagsa dans le cadre du projet Nosica qui vise à intégrer notamment les données de caisse dans la production des indicateurs d’activité de court-terme. Elle teste aussi leur performance sur des jeux de données tests. |
| Acteurs | Insee |
| Résultats du projet | Les données de caisse sont aujourd’hui utilisées en production pour le calcul de l’inflation et pour le calcul d’indicateurs d’activité conjoncturelle. |
| Produits et documentation du projet | - Utiliser les données de caisses pour le calcul de l’indice des prix à la consommation, courrier des statistiques n°3 de l’Insee, décembre 2019 - Données de caisses et ajustements qualité, documents de travail n°F1704 de l’Insee, août 2017 |
| Code du projet | - https://github.com/InseeFrLab/predicat : API pour classification des libellés de caisse - https://github.com/InseeFrLab/product-labelling : Application de labellisation des données de caisse |
La récolte de données en ligne (webscraping) n’est pas utilisée que dans le cadre de la production de l’inflation. Elle est aussi utilisée dans d’autres domaines et par d’autres entités que l’Insee au sein du service statistique public. L’Insee utilise par ailleurs depuis 2020 les données de caisse dans la définition de l’IPC, comme rappelé dans l’article Utiliser les données de caisses pour le calcul de l’indice des prix à la consommation du courrier des statistiques de 2019.