Femmes | Hommes | |
---|---|---|
Diabétiques | 30 | 40 |
Non diabétiques | 12 | 0 |
Arbitrer, définir, mesurer
On se placera dans le contexte suivant:
Problématique de l’ensemble de l’atelier
Comment diffuser de l’information statistique sans porter atteinte aux personnes (physiques ou morales) auprès desquelles l’information a été collectée ?
Les missions [de la statistique publique] ne dépendent pas seulement de sa capacité à maîtriser les outils ou les méthodes nécessaires à la production d’une information de qualité, mais aussi de sa capacité à protéger et à garantir la confidentialité des données qui lui sont confiées. Cette protection est la condition pour continuer à disposer de ces données. (Redor 2023)
Une définition maximaliste de la divulgation…
T. Dalenius propose en 1977 la définition suivante:
“Si la publication des statistiques \(T(D)\) permet de déterminer la valeur de données statistiques confidentielles de façon plus précise qu’il ne serait possible sans accès à \(T(D)\), alors une divulgation a eu lieu.” (Dalenius 1977).
… impossible à tenir
Cette définition ne prend pas en compte l’information auxiliaire déjà disponible
Un exemple de divulgation impossible à protéger
Des études montrent un lien de corrélation entre le fait de fumer et la survenue d’un cancer des poumons \(\Rightarrow\) si, on (une compagnie d’assurance) sait qu’un individu est fumeur, alors on peut lui imputer un risque important d’avoir un cancer, information qui va très probablement générer un préjudice à cette personne.
Il faut tenir compte de deux réalités:
\(\Rightarrow\) une protection inconditionnelle et totale n’est pas possible.
La protection de données se définit à travers:
\(\Rightarrow\) Besoin d’arbitrer entre les deux composantes.
Protéger des données confidentielles, c’est arbitrer entre:
leur utilité pour la connaissance et le débat public;
leur risque intrinsèque: toute donnée diffusée peut divulguer une information sur un individu ou un groupe d’individus.
Ne pas diffuser rendrait la statistique publique inutile.
Tout diffuser rendrait la statistique publique dangereuse.
\(\Rightarrow\) Comment les traiter sans trop détériorer l’information statistique ?
Trouver un équilibre entre protection et information
Il s’agit de réaliser un compromis entre le fait de minimiser les risques de divulgation des informations confidentielles et minimiser la perte d’information due aux traitements de protection des données.
Pas de méthode magique
Il n’existe pas de méthode minimisant le risque et la perte d’information en même temps!
Le recensement de la population (RP) en France:
Décret de publication spécifique;
Utilité des données du RP très forte:
Risque d’utilisation des données diffusées contre les personnes est jugé faible:
L’Insee diffuse des données communales même pour les très petites communes:
Voir l’exemple de la commune de Rochefourchat:
Il n’existe pas de risque zéro
Aucune méthode ne supprime totalement le risque \(\Rightarrow\)
Arbitrer est donc inhérent à la protection des données.
Cet arbitrage considéré comme le paradigme de la discipline.
(Voir Cox, Karr, et Kinney 2011)
S’il aide à savoir comment penser…
…il aide moins à savoir comment agir.
Un arbitrage Coûts/Bénéfices est réalisé:
\(\Longrightarrow\) Mettre en place des méthodes qui ont un coût adapté au risque objectivé et à la sensibilité des données.
Pour arbitrer, il faut pouvoir
Définir les termes de l’arbitrage
Mesurer les phénomènes.
Avant de définir les risques:
Objectif
Pour mieux maîtriser les risques, prendre conscience du contexte dans lequel ils sont susceptibles d’apparaître.
On peut distinguer quatre grands types d’utilisateurs:
Plus l’accès est lâche, plus l’anonymisation doit pouvoir être élevé:
Plus l’accès est lâche, plus l’anonymisation doit pouvoir être élevé:
Plus l’accès est lâche, plus l’anonymisation doit pouvoir être élevé:
Une responsabilisation nécessaire:
Est-il nécessaire de protéger les données ?
Quelles sont les caractéristiques et utilisations principales des données ?
Définition et mesure des risques de divulgation
Choix des méthodes de protection des données
Mise en oeuvre des méthodes
Contrôles et documentation
Source: (Hundepool et al. 2024)
Analyse des unités considérées et variables présentes dans le fichier de microdonnées, si elles ne sont pas sensibles pas besoin d’effectuer de traitement pour la protection des données
Quel type de diffusion ? (tableaux de données, cartes, microdonnées ...)
Analyse du type et de la structure des données pour déterminer les variables / unités qui nécessitent une protection
Analyse de la méthodologie de l’enquête
Définition des objectifs de l’institut : type de publication (PUF, MFR), politiques de diffusion, cohérence entre plusieurs diffusions simultanées, cohérence avec ce qui est déjà publié
Analyse des besoins des utilisateurs (variables prioritaires, types d’analyses qui seront réalisées)
Analyse du questionnaire pour les enquêtes (variables à retirer / à inclure, quel niveau de détail pour les indicateurs structurels telles que les variables socio-démographique ?)
Recenser les différents scénarios possibles conduisant à la divulgation des données
Choisir la ou les mesures du risque de divulgation
Seuil de tolérance au risque à fixer
Choisir une / plusieurs méthode(s) de protection
Comparer les méthodes: niveau de risque vs perte d’utilité
Choisir un logiciel
Réaliser la mesure des risques de divulgation
Protéger les données
Quantification de la perte d’information
Contrôle du processus de protection
Réalisation d’un document synthétisant les méthodes utilisées et faisant le bilan de la perte d’information
Définition générale
Risque de divulguer une information confidentielle en publiant des données agrégées ou individuelles.
Risque de divulgation d’identité
Risque de divulgation d’attribut
Risque de divulgation par inférence
Risque de divulgation par différenciation
par "emboîtement"
par "recoupement"
Définition
Risque de reconnaître un individu spécifique dans les données publiées : un attaquant peut identifier une unité à partir de la publication.
Exemples :
Certaines variables comme le nom, l’adresse qui identifient directement des individus ou des foyers.
Toutes les personnes ayant des caractéristiques très rares (ex : personnes très âgées).
87% de la population américaine est unique uniquement à partir du ZIP code, du genre et de la date de naissance (Sweeney 2000).
Les identifiants directs (nom, prénom, adresse) sont utiles pour la collecte mais supprimés des bases à vocation statistique.
D’autres variables ont un fort pouvoir ré-identifiant (le lieu de résidence, l’âge, le genre, la profession, le niveau d’éducation, etc.).
Ré-identifier ne permet as toujours d’obtenir plus d’informations sur les personnes.
Définition
Risque de divulguer une information sensible sur un ou plusieurs individus à partir des données diffusées.
Exemples :
Femmes | Hommes | |
---|---|---|
Diabétiques | 30 | 40 |
Non diabétiques | 12 | 0 |
Définition
Risque de pouvoir déduire avec une certitude élevée des informations sensibles sur des individus à partir des données publiées.
Femmes | Hommes | |
---|---|---|
Diabétiques | 30 | 38 |
Non diabétiques | 12 | 2 |
Définition
Lorsqu’une information agrégée est diffusée pour divers croisements, il est parfois possible d’en déuire une information additionnelle en différenciant les divers résultats.
Exemples:
Dans un jeu de données individuelles, on distinguera:
Identifiants: Variables permettant d’identifier directement un individu.
Quasi-identifiants: Variables pouvant conduire à réidentifier un individu à partir d’une information auxiliaire.
Variables sensibles: Variables pour lesquelles des mesures de protection spécifiques peuvent s’avérer nécessaires.
Autres variables
Les identifiants sont retirés très tôt au cours du processus de production pour respecter les réglements sur la protection des données.
On supposera par la suite que tous les identifiants directs ont été retirées.
Pour des données individus/ménages: sexe, âge, lieu d’habitation, diplôme, statut marital, etc.
Pour des données entreprises: Secteur d’activité, lieu du siège, etc.
Liste à déterminer à chaque fois
De quelles variables un attaquant dispose-t-il déjà ?
Identifiants
|
Quasi Id.
|
Sensible
|
|||
---|---|---|---|---|---|
Nom | Adresse | Commune | Age | Diplôme | Revenus |
Johan | 3 rue... | Paris | 36 | Bac | 150000 |
Jeanne | 11 bd... | Malakoff | 41 | Bac+3 | 60000 |
Johnny | 12 pl... | Pithiviers | 23 | Bac Pro | 25000 |
Jeannette | 8 rue... | Belval | 85 | 10000 |
Le \(k\)-anonymat (Sweeney 2002)
Un jeu de données est considéré comme k-anonyme si la combinaison la moins fréquente des modalités des variables quasi-identifiantes compte au moins k unités.
Cette mesure assure que tous les individus sont similaires à au moins \(k-1\) autres.
Mesure de risque globale qui se focalise sur les individus les plus à risque de ré-identification.
La probabilité associée au risque pour un individu du fichier d’être ré-identifié est au minimum \(1/k\)
Choix de \(k\) en prenant en compte les règles existantes et/ou par arbitrage risque-utilité.
Caractéristiques du scénario d’attaque
Le \(k\)-anonymat protège les données d’une attaque de ré-identification lorsque l’attaquant dispose d’une information auxiliaire sur les mêmes individus (un au moins):
Une efficacité qui dépend du réalisme du scénario
Assurer un certain niveau d’anonymité permet de réduire le risque de ré-identification, mais :
Id | Age | Genre | Maladie |
---|---|---|---|
1 | [45;55[ | M | Diabète |
2 | [45;55[ | M | Hypertension artérielle |
3 | [45;55[ | F | Cancer |
4 | [45;55[ | F | Grippe |
5 | [70;75[ | M | Diabète |
6 | [45;55[ | M | Diabète |
La l-diversité (Machanavajjhala et al. 2007)
Elle s’assure d’une diversité suffisante des modalités d’une variable sensible prises par les individus au sein d’une même combinaison de quasi-identifiants.
Raffinement du \(k\)-anonymat.
Protection contre la divulgation d’attributs sensibles.
Chaque groupe doit contenir au moins \(l\) modalités différentes de la variable sensible étudiée (ou \(l\) modalités parmi les plus fréquentes).
Choix de la cible \(l\) en fonction des règles existantes et/ou d’un arbitrage risque-utilité.
Age | Sexe | Maladie |
---|---|---|
[50;55[ | H | Diabète |
[50;55[ | H | Diabète |
[50;55[ | F | Cancer |
[50;55[ | F | Grippe |
[50;55[ | H | Diabète |
\(\Rightarrow\) Si un fichier exhaustif est \(k\)-anonyme, alors \(\forall c, N_c \geq k\).
Les uniques dans la population: \(N_c = 1\)
Les uniques dans l’échantillon: \(n_c = 1\)
Les uniques dans l’échantillon qui sont également uniques dans la population: \(n_c = 1\) et \(\sum\limits_{i \in c}{w_i} = 1\)
Le \(k\)-anonymat et la \(l\)-diversité sont des mesures globales.
On peut passer au niveau individuel:
\[r_c = \frac{1}{N_c}\]
Probabilité de ré-identifier un individu dans un échantillon
Au niveau de l’échantillon: \[r_c = \frac{1}{n_c}\]
Au niveau de la population, le risque de ré-identification peut être estimé par:
\[\hat r_c = \frac{1}{\sum\limits_{i \in c}{w_i}}\]
où \(\sum\limits_{i \in c}{w_i}\) est une estimation de \(\hat N_c\).
Pour réaliser l’arbitrage, une mesure de risque globale est plus pratique. On pourra considérer:
Des mesures plus raffinées sont implémentées dans des outils classiques tels que \(\mu\)-Argus ou le package R
sdcMicro
.
Quand on dispose d’un échantillon (donc des \(n_k\)), on ne connaît en général pas les \(N_k\).
Mesure du risque individuel conditionnellement à l’échantillon: \(r_k = \mathbb{E}(\frac{1}{N_k}|n_k)\).
Mesure dépendant d’une modélisation de la loi (a posteriori) de \(N_k | n_k\)
Modélisation des fréquences des clés dans la population conditionnellement à leur fréquence dans l’échantillon.
Par une binomiale négative par exemple dans Benedetti et Franconi (1998).
Mesure a posteriori de la distance entre les individus du jeu protégé et ceux du jeu original.
Permet d’évaluer le nombre de correspondances exactes entre données perturbées et originales.
Fort risque de ré-identification des individus ayant des valeurs en queue de distribution (par ex. les très hauts revenus des footballeurs)
Une perturbation n’est pas toujours suffisante (Un outlier perturbé reste souvent un outlier).
Détection des outliers à partir des quantiles de la distribution.
Scénario d’attaque
Définir des scénarios d’attaque c’est envisager les moyens utilisés par l’attaquant et objectiver les utilisations frauduleuses que nous chercherons à empêcher.
Arbitrage Coûts/Risques (INS)
Arbitrage Coûts/Bénéfices (Attaquant)
Cohen (2022)
Il existe de nombreuses façons d’évaluer la perte d’information.
Fortement liée au niveau de protection.
De nombreuses méthodes pour évaluer la perte d’information, le choix de la mesure dépend entièrement des utilisateurs finaux des données publiées.
Difficile d’anticiper toutes les utilisations d’un ensemble de données et donc toutes les mesures associées de perte d’information.
Nécessité de faire des concessions sur certaines caractéristiques d’un tableau pour libérer des contraintes ailleurs.
On ne peut pas préserver toutes les caractéristiques d’un ensemble de données.
Les risques de divulgation