Curiexplore, la plateforme de comparaison des politiques nationales d’enseignement et de recherche
Visualisation interactive de l’environnement de l’enseignement et de la recherche dans les différents pays.
📺️ Les présentations et le replay de la journée du réseau, le 1er décembre 2025, sont disponibles
1 juin 2020
| Webscraping du prix et des caractéristiques des ordinateurs portables, estimation de modèles hédoniques pour améliorer la qualité statistique de l’indice des prix à la consommation | |
|---|---|
| Détail du projet | L’IPC mesure l’évolution « pure » des prix, à qualité constante. Il suit un certain nombre de produits identiques dans le temps. Lorsque ceux-ci disparaissent, ils sont remplacés par des produits qui peuvent ne pas être équivalents. Il convient alors de distinguer, dans l’évolution des prix des remplaçants par rapport aux produits remplacés, un effet qualité (différence de prix pour un mois fixé) d’un effet inflation. Les méthodes « hédoniques » estiment cet effet qualité à partir de coefficients correspondant aux prix sous-jacents des différentes caractéristiques techniques du produit (par exemple la marque de l’ordinateur, la mémoire vive d’un ordinateur, le modèle et la fréquence du processeur, etc.). Le but du projet est de renforcer ces méthodes d’estimation de l’effet qualité par l’extension de la base de données et l’usage de méthode d’apprentissage statistique. |
| Acteurs | Insee |
| Résultats du projet | L’étude a permis d’augmenter les échantillons utilisés (en termes de relevés de prix et de caractéristiques) par une collecte de données en ligne (webscraping) et de mettre en place une procédure de sélection automatique des caractéristiques expliquant les prix par apprentissage automatique (forêt aléatoire, régression de type Lasso). In fine, 15 caractéristiques ont été retenues pour estimer l’effet qualité, comme par exemple la marque, la RAM, la capacité de stockage, la marque du processeur, sa fréquence, la résolution de l’écran … Les formulaires utilisés par les enquêteurs ont été amendés pour qu’ils relèvent désormais les caractéristiques pertinentes déterminant le prix des ordinateurs. |
La récolte de données en ligne (webscraping) n’est pas utilisée que dans le cadre de la production de l’inflation. Elle est aussi utilisée dans d’autres domaines et par d’autres entités que l’Insee au sein du service statistique public. L’Insee utilise par ailleurs depuis 2020 les données de caisse dans la définition de l’IPC, comme rappelé dans l’article Utiliser les données de caisses pour le calcul de l’indice des prix à la consommation du courrier des statistiques de 2019.