Détecter et traiter les valeurs aberrantes ou manquantes, application à la Déclaration Sociale Nominative

Utilisation des méthodes de machine learning pour la détection et le traitement des valeurs aberrantes ou manquantes, application à la Déclaration Sociale Nominative
données administratives
Insee
machine learning
en production ??
data editing
Date de publication

1 janvier 2018

Synthèse du projet

Utilisation des méthodes de machine learning pour la détection et le traitement des valeurs aberrantes ou manquantes, application à la Déclaration Sociale Nominative (DSN)
Détail du projet À l’occasion de la modernisation des processus internes à l’Insee suite à l’arrivée de la DSN, ce projet vise à repenser la détection des anomalies et le redressement des salaires. En effet, la gestion de nouvelles données mensuelles DSN incite à tester des méthodes d’apprentissage statistique (machine learning) pour détecter automatiquement les anomalies sur le triplet de variables (salaire brut, salaire net et nombre d’heures).
Acteurs Insee
Résultats du projet Les travaux réalisés ont permis de comparer les caractéristiques des anomalies identifiées par trois méthodes issues de l’apprentissage statistique. Les trois algorithmes détectent en grande parte des anomalies différentes, en fonction de la manière dont ils définissent et identifient les erreurs présumées. L’utilisation combinée de plusieurs algorithmes de détection d’erreurs permettrait ainsi de couvrir un spectre plus large d’erreurs potentielles.
Produits et documentation du projet - 5 324 euros de l’heure : outlier ou footballeur ? Méthodes d’apprentissage non supervisé pour la détection d’anomalies : application au cas de la Déclaration Sociale Nominative, Journées de méthodologie statistique 2018