Synthèse du projet

	Classification des données de caisse à partir de machine learning
Détail du projet	Les données de caisse sont utilisées à l’Insee pour le calcul de l’IPC depuis 2010 (cf le document de travail sur le sujet). Les données de caisses donnent en effet pour chaque code-barres, chaque jour et chaque point de ventes les quantités vendues ainsi que le chiffre d’affaires et/ou le prix auquel le produit est vendu. Pour exploiter ces données, il est toutefois nécessaire de savoir quel produit se trouve derrière un code-barres. Actuellement, l’IPC se fonde sur un référentiel de codes-barres, acheté à un prestataire et qui donne une information très détaillée et structurée des caractéristiques de ces produits. Cette information est payante et ne couvre pas l’ensemble des produits. L’expérimentation vise à identifier les étapes de traitement textuel des libellés, ainsi que les méthodes de classification ou autres, permettant de coder automatiquement les libellés, sans passer par le référentiel, dans la nomenclature Coicop pour l’IPC et sur les regroupements utilisés pour Emagsa dans le cadre du projet Nosica qui vise à intégrer notamment les données de caisse dans la production des indicateurs d’activité de court-terme. Elle teste aussi leur performance sur des jeux de données tests.
Acteurs	Insee
Résultats du projet	Les données de caisse sont aujourd’hui utilisées en production pour le calcul de l’inflation et pour le calcul d’indicateurs d’activité conjoncturelle. note point d’étape été 2020 note point d’étape hiver 2020-2021
Code du projet	- https://github.com/InseeFrLab/predicat : API pour classification des libellés de caisse - https://github.com/InseeFrLab/product-labelling : Application de labellisation des données de caisse