Classification des données de caisse à partir de machine learning

Classifier des données de caisse dans la nomenclature COICOP par machine learning pour le calcul de l’IPC
Python
codification automatique
données de caisse
COICOP
IPC
en production
Date de publication

1 janvier 2020

Synthèse du projet

Classification des données de caisse à partir de machine learning
Détail du projet Les données de caisse sont utilisées à l’Insee pour le calcul de l’IPC depuis 2010. Les données de caisses donnent en effet pour chaque code-barres, chaque jour et chaque point de ventes les quantités vendues ainsi que le chiffre d’affaires et/ou le prix auquel le produit est vendu. Pour exploiter ces données, il est toutefois nécessaire de savoir quel produit se trouve derrière un code-barres. Actuellement, l’IPC se fonde sur un référentiel de codes-barres, acheté à un prestataire et qui donne une information très détaillée et structurée des caractéristiques de ces produits. Cette information est payante et ne couvre pas l’ensemble des produits. L’expérimentation vise à identifier les étapes de traitement textuel des libellés, ainsi que les méthodes de classification ou autres, permettant de coder automatiquement les libellés, sans passer par le référentiel, dans la nomenclature Coicop pour l’IPC et sur les regroupements utilisés pour Emagsa dans le cadre du projet Nosica qui vise à intégrer notamment les données de caisse dans la production des indicateurs d’activité de court-terme. Elle teste aussi leur performance sur des jeux de données tests.
Acteurs Insee
Résultats du projet Les données de caisse sont aujourd’hui utilisées en production pour le calcul de l’inflation et pour le calcul d’indicateurs d’activité conjoncturelle.
Produits et documentation du projet - Utiliser les données de caisses pour le calcul de l’indice des prix à la consommation, courrier des statistiques n°3 de l’Insee, décembre 2019
- Données de caisses et ajustements qualité, documents de travail n°F1704 de l’Insee, août 2017
Code du projet - https://github.com/InseeFrLab/predicat : API pour classification des libellés de caisse
- https://github.com/InseeFrLab/product-labelling : Application de labellisation des données de caisse

Projets similaires

En lien avec le webscraping et l’IPC

La récolte de données en ligne (webscraping) n’est pas utilisée que dans le cadre de la production de l’inflation. Elle est aussi utilisée dans d’autres domaines et par d’autres entités que l’Insee au sein du service statistique public. L’Insee utilise par ailleurs depuis 2020 les données de caisse dans la définition de l’IPC, comme rappelé dans l’article Utiliser les données de caisses pour le calcul de l’indice des prix à la consommation du courrier des statistiques de 2019.

En lien avec l’usage de nouvelles sources de données

En lien avec les problématiques de classification automatique