Comparaison des méthodes d’appariement et apport du machine learning

Tester et comparer différentes méthodes d’appariements afin de dégager des recommandations pour les travaux nécessaires à la construction des répertoires, notamment dans le cadre du programme pluriannuel RESIL.
appariement
données administratives
en production
Date de publication

1 janvier 2021

Synthèse du projet

Comparaison des méthodes d’appariement et apport du machine learning
Détail du projet Le programme Resil vise à construire un système de répertoires d’individus, de ménages et de locaux d’habitation, durable et évolutif, mis à jour à partir de sources administratives diverses. Il nécessite l’agrégation de plusieurs sources de données sans identifiant direct commun.
Le but de l’expérimentation est de tester et de comparer différentes méthodes d’appariements afin de dégager des recommandations pour les travaux nécessaires à la construction des répertoires. Celles-ci seront fondées sur des critères de performance (qualité de l’appariement) mais aussi sur des considérations opérationnelles (facilité de déploiement, temps de calcul, etc.). L’objectif est notamment d’évaluer l’apport et les contraintes des méthodes probabilistes ainsi que du machine learning dans les tâches d’appariement. Ce travail s’accompagnera d’une réflexion sur la normalisation préalable des données et l’évaluation des résultats d’un appariement.
Acteurs Insee
Produits et documentation du projet - Méthodologie d’appariement de données individuelles, Journées de méthodologie statistique 2022 ;
- Probabilistes ou déterministes, des méthodes d’appariements au banc d’essai du programme RéSIL, Journées de méthodologie statistique 2022 ;
- Impact du nettoyage des données sur la qualité d’un appariement, Journées de méthodologie statistique 2022
- Les appariements : finalités, pratiques et enjeux de qualité, document de travail de l’Insee, juillet 2024