Classification des données de caisse à partir de machine learning

Classifier des données de caisse dans la nomenclature COICOP par machine learning pour le calcul de l’IPC
Python
codification automatique
données de caisse
COICOP
IPC
conjoncture
production
Author

Nicolas

Published

January 1, 2020

Synthèse du projet

Classification des données de caisse à partir de machine learning
Détail du projet Les données de caisse sont utilisées à l’Insee pour le calcul de l’IPC depuis 2010 (cf le document de travail sur le sujet). Les données de caisses donnent en effet pour chaque code-barres, chaque jour et chaque point de ventes les quantités vendues ainsi que le chiffre d’affaires et/ou le prix auquel le produit est vendu. Pour exploiter ces données, il est toutefois nécessaire de savoir quel produit se trouve derrière un code-barres. Actuellement, l’IPC se fonde sur un référentiel de codes-barres, acheté à un prestataire et qui donne une information très détaillée et structurée des caractéristiques de ces produits. Cette information est payante et ne couvre pas l’ensemble des produits. L’expérimentation vise à identifier les étapes de traitement textuel des libellés, ainsi que les méthodes de classification ou autres, permettant de coder automatiquement les libellés, sans passer par le référentiel, dans la nomenclature Coicop pour l’IPC et sur les regroupements utilisés pour Emagsa dans le cadre du projet Nosica qui vise à intégrer notamment les données de caisse dans la production des indicateurs d’activité de court-terme. Elle teste aussi leur performance sur des jeux de données tests.
Acteurs Insee
Résultats du projet Les données de caisse sont aujourd’hui utilisées en production pour le calcul de l’inflation et pour le calcul d’indicateurs d’activité conjoncturelle.
note point d’étape été 2020
note point d’étape hiver 2020-2021
Code du projet - https://github.com/InseeFrLab/predicat : API pour classification des libellés de caisse
- https://github.com/InseeFrLab/product-labelling : Application de labellisation des données de caisse