Les méthodes suppressives

Pour données tabulées

Les méthodes à disposition

Deux types de méthodes en fonction du moment où elles sont appliquées :

  • Les méthodes pré-tabulation sont appliquées sur les données individuelles, i.e. avant toute tabulation
  • Les méthodes post-tabulation sont appliquées sur les données agrégées, i.e. après tabulation

Les méthodes post-tabulation

Regroupement des catégories et suppression de cellules.

Tableaux d’effectifs

Nombre d’entreprises polluantes par région
Nord Ouest Est Sud Total
Polluante 6 14 1 7 28
Non polluante 3 2 1 13 19
Total 9 16 2 20 47
Table 1: Nombre d’entreprises polluantes par région

Y a-t-il des cellules à risque ?

Tableaux d’effectifs

Règle de fréquence : une cellule d’un tableau ne doit pas être construite à partir de strictement moins de n unités (n > 0).


Pour les données entreprises à l’Insee, n = 3.

Tableaux d’effectifs

Nombre d’entreprises polluantes par région
Nord Ouest Est Sud Total
Polluante 6 14 1 7 28
Non polluante 3 2 1 13 19
Total 9 16 2 20 47
Table 2: Nombre d’entreprises polluantes par région

Tableaux de volume

Répartition des ventes d’instruments par région et par type, en millions d’euros
Harpes Piano Orgues Total
Nord 58 71 92 221
Centre 11 124 157 292
Sud 36 24 60 120
Total 105 219 309 633
Table 3: Répartition des ventes d’instruments par région et par type, en millions d’euros

Y a-t-il des cellules à risque ?

Tableaux de volume

Répartition des ventes d’instruments par région et par type, en millions d’euros
Région Harpes Piano Orgues Total
Nord 58 (5) 71 (17) 92 (5) 221 (27)
Centre 11 (4) 124 (11) 157 (2) 292 (17)
Sud 36 (3) 24 (6) 60 (1) 120 (10)
Total 105 (12) 219 (34) 309 (8) 633 (54)
Table 4: Répartition des ventes d’instruments par région et par type, en millions d’euros

Note : les valeurs entre parenthèses indiquent le nombre de contributeurs.

Tableaux de volume

Secret primaire de fréquence.

Répartition des ventes d’instruments par région et par type, en millions d’euros
Région Harpes Piano Orgues Total
Nord 58 (5) 71 (17) 92 (5) 221 (27)
Centre 11 (4) 124 (11) 157 (2) 292 (17)
Sud 36 (3) 24 (6) 60 (1) 120 (10)
Total 105 (12) 219 (34) 309 (8) 633 (54)
Table 5: Répartition des ventes d’instruments par région et par type, en millions d’euros

Note : les valeurs entre parenthèses indiquent le nombre de contributeurs.

Tableaux de volume

Règle de dominance (n,k) : une cellule est sensible si les n plus grands contributeurs de cette cellule représentent plus de k% du total de celle-ci.


  • Pour les données entreprises à l’Insee, n = 1 et k = 85. Donc, 1 unité contributrice à une cellule ne peut contribuer à plus de 85% de la valeur de celle-ci.
  • Pour chaque cellule du tableau, besoin de déterminer le plus gros contributeur.

Tableaux de volume

Secret primaire de dominance.

Répartition des ventes d’instruments par région et par type, en millions d’euros
Région Harpes Piano Orgues Total
Nord 58 (5) 71 (17) 92 (5) 221 (27)
Centre 11 (4) 124 (11) 157 (2) 292 (17)
Sud 36 (3) 24 (6) 60 (1) 120 (10)
Total 105 (12) 219 (34) 309 (8) 633 (54)
Table 6: Répartition des ventes d’instruments par région et par type, en millions d’euros

Note : les valeurs entre parenthèses indiquent le nombre de contributeurs.

Tableaux de volume

Règle du p% : une cellule est sensible si l’un des contributeurs a une cellule peut estimer la valeur d’un autre contributeur à p% de sa véritable valeur.

  • En pratique, le 2eme contributeur de la valeur de la cellule ne doit pas pouvoir estimer en utilisant sa propre valeur, celle du premier contributeur avec une précision supérieure à p%.
  • Il est d’usage de choisir p = 10.
  • Pas utilisée à l’Insee mais recommandée par les experts européens.

Tableaux de volume

Secret primaire dû à la règle du p%.

Répartition des ventes d’instruments par région et par type, en millions d’euros
Région Harpes Piano Orgues Total
Nord 58 (5) 71 (17) 92 (5) 221 (27)
Centre 11 (4) 124 (11) 157 (2) 292 (17)
Sud 36 (3) 24 (6) 60 (1) 120 (10)
Total 105 (12) 219 (34) 309 (8) 633 (54)
Table 7: Répartition des ventes d’instruments par région et par type, en millions d’euros

Note : les valeurs entre parenthèses indiquent le nombre de contributeurs.

Le secret primaire

Les cellules catégorisées à risque pour la règle de fréquence, la règle de dominance et la règle du p% constituent le secret primaire. On ne peut pas diffuser ces cellules.


Comment faire ?

Le regroupement de catégories

Redéfinir le contenu des variables de croisement en diminuant le nombre de leur modalités.


Permet de réduire fortement, voir d’enlever complètement le secret primaire.


Envisager cette option avant les autres méthodes.

Le recodage : un exemple

Nombre d’entreprises polluantes selon l’âge du dirigeant
<25 25-30 30-50 > 50 Total
Polluante 2 5 7 6 20
Non polluante 8 15 17 20 60
Total 10 20 24 26 80
Table 8: Nombre d’entreprises polluantes selon l’âge du dirigeant

Définir de nouvelles modalités pour augmenter le nombre de répondants par cellule.

Le recodage : un exemple

Nombre d’entreprises polluantes selon l’âge du dirigeant
<28 28-35 35-55 > 55 Total
Polluante 3 6 6 5 20
Non polluante 9 17 19 15 60
Total 12 23 25 20 80
Table 9: Nombre d’entreprises polluantes selon l’âge du dirigeant

Le recodage : à vous de jouer !

On cherche à publier le tableau suivant :

  • Population d’une région par leur département de résidence, leur département de travail, leur profession et leur âge.
  • Beaucoup de secret primaire dans ce tableau puisque la plupart des gens résident et travaillent dans le même département.
  • Comment recoder ce tableau ?

Un premier recodage consiste à regrouper tous les départements de travail hors du département de résidence dans une seule catégorie.

Le recodage

👍 👎
Réduit le SP. Ne supprime pas toujours totalement le SP.
Très simple à mettre en place. Impossible dans certains cas (structure imposée, suivi dans le temps).

Comment protéger le secret primaire restant ?

La suppression de cellules

Le secret primaire

Première étape : supprimer les cellules ne respectant pas les règles du secret primaire.

Nombre d’entreprises polluantes par région
Nord Ouest Est Sud Total
Polluante 6 14 X 7 28
Non polluante 3 X 3 13 21
Total 9 16 4 20 49
Table 10: Nombre d’entreprises polluantes par région

Ce n’est pas suffisant, les cellules sont liées entre elles par des équations (marges).

Le secret secondaire

Deuxième étape : supprimer des cellules pour protéger le secret primaire.

Nombre d’entreprises polluantes par région
Nord Ouest Est Sud Total
Polluante 6 X X 7 28
Non polluante 3 X X 13 21
Total 9 16 4 20 49
Table 11: Nombre d’entreprises polluantes par région

Le secret secondaire

Plusieurs structures de suppressions (masques de secret) sont possibles.

Nombre d’entreprises polluantes par région
Nord Ouest Est Sud Total
Polluante X 14 X 7 28
Non polluante X X 3 13 21
Total 9 X X 20 49
Table 12: Nombre d’entreprises polluantes par région

Les intervalles de protection

Cacher des cellules revient à diffuser des intervalles.

Nord Ouest Est Sud Total
Polluante 6 [11 ; 15] [0 ; 4] 7 28
Non polluante 3 [1 ; 5] [0 ; 4] 13 21
Total 9 16 4 20 49

Intervalle des possibles : l’ensemble des valeurs possibles prises par la cellule supprimée après avoir posé le masque de secret.

Les intervalles de protection

Intervalle de protection : soit \(V_C\) la valeur d’une cellule C sensible à la règle de fréquence et \(m\%\) la marge protection choisie.

\[ [(1 - m\%) \cdot V_C ;\ (1 + m\%) \cdot V_C] \]

En pratique on choisit souvent une marge de 10%, \[ [90\% \cdot V_C ; 110\% \cdot V_C] \]

Les intervalles de protection

Répartition des ventes d’instruments par région et par type, en millions d’euros
Région Harpes Piano Orgues Total
Nord 58 (5) 71 (17) 92 (5) 221 (27)
Centre 11 (4) 124 (11) 157 (2) 292 (17)
Sud 36 (3) 24 (6) 60 (1) 120 (10)
Total 105 (12) 219 (34) 309 (8) 633 (54)
Table 13: Répartition des ventes d’instruments par région et par type, en millions d’euros

Note : glisser la souris sur les valeurs en secret primaire de fréquence pour voir les intervalles de protection.

Les intervalles de protection

Règle des intervalles : l’intervalle de protection de chaque cellule sensible doit être inclus dans son intervalle des possibles.


Cette règle permet de se prémunir d’une divulgation par inférence.

Les intervalles de protection

Exemple avec une marge de protection de 10%.

Région Harpe Piano Orgue Autre Total
Nord 58 71 92 800 1021
Centre 11 124 157 (2) 934 1226
Sud 36 24 60 (1) 651 771
Total 105 219 309 2385 3018

Note : glisser la souris sur les valeurs en secret primaire de fréquence pour voir les intervalles de protection.

Les intervalles de protection

Exemple avec une marge de protection de 10%.

Région Harpe Piano Orgue Autre Total
Nord X 71 X 800 1021
Centre X 124 X 934 1226
Sud X 24 X 651 771
Total 105 219 309 2385 3018

Note : glisser la souris sur les valeurs en secret primaire de fréquence pour voir les intervalles de protection.

Les intervalles de protection

Exemple avec une marge de protection de 10%.

Région Harpe Piano Orgue Autre Total
Nord [0;105] 71 [45;150] 800 1021
Centre [0;105] 124 [63;168] 934 1226
Sud [0;96] 24 [0;96] 651 771
Total 105 219 309 2385 3018

Note : glisser la souris sur les valeurs en secret primaire de fréquence pour voir les intervalles de protection.

Les intervalles de protection

La borne supérieure de l’intervalle des possibles (168) est inférieure à la borne supérieure de l’intervalle de protection (173).

Les intervalles de protection

On peut inférer la valeur de la cellule à 7% et non 10%.

La cellule n’est pas suffisamment protégée.

Les intervalles de protection

On utilise un autre masque de secret …

Région Harpe Piano Orgue Autre Total
Nord 58 X X 800 1021
Centre 11 X X 934 1226
Sud 36 X X 651 771
Total 105 219 309 2385 3018

Les intervalles de protection

… avec d’autres intervalles des possibles.

Région Harpe Piano Orgue Autre Total
Nord 58 [0;163] [0;163] 800 1021
Centre 11 [0;219] [62;281] 934 1226
Sud 36 [0;84] [0;84] 651 771
Total 105 219 309 2385 3018

Les intervalles de protection

Avec cet autre masque de secret la cellule est suffisamment protégée.

Minimiser la perte d’information

Pour minimiser la perte d’information, il faut définir pour chaque cellule un coût associé à sa suppression.


Plusieurs possibilités :

  • Le nombre de cellules supprimées
  • Le nombre de contributeurs concernés par les cases supprimées
  • La valeur de la cellule (défaut Tau-Argus)
  • Un autre variable / coût ajusté

Les outils

\(\tau\)-Argus

  • Permet de calculer le secret primaire et secondaire ou faire des arrondis contrôlés
  • Développement maintenance et support : groupe d’expert européens coordonné par CBS
  • Logiciel de référence en Europe pour gérer la confidentialité des tableaux
  • Logiciel libre et open source
  • Dernière version stable 4.2.4 (26 avril 2023)

Tau-Argus Logo

\(\tau\)-Argus

👍 👎
Outil qui fait référence. Interface fouillis.
Performant sur la partie pose de secret grâce à une optimisation globale. Bugs et erreurs pas faciles à comprendre et corriger.
Outil maintenu régulièrement. Reproductibilité des opérations limitée.

rtauargus

Un package R pour bénéficier des avantages de \(\tau\)-Argus tout en limitant les inconvénients.

rtauargus Logo

rtauargus

Fonctionnement du package :

  • crée l’ensemble des fichiers dans les formats attendus par \(\tau\)-Argus
  • Lance \(\tau\)-Argus
  • Récupère les résultats dans R

rtauargus

  1. Poser le secret primaire “manuellement”
  2. Poser le secret secondaire avec :
  • tab_rtauargus() : pour protéger un seul tableau
  • tab_multi_manager() : pour protéger plusieurs tableaux

rtauargus

Besoin de retours utilisateurs : créer une issue sur github.

Ou nous contacter par .

Les hiérarchies

Tableaux hiérarchisés

Tableaux hiérarchisés

Si on ne renseigne pas la hiérarchie, on peut retrouver la valeur cachée.

Tableaux hiérarchisés

Lorsque la hiérarchie est renseignée, on protège bien les données.

Le format Argus des hiérarchies

Dans \(\tau\)-Argus les hiérarchies sont présentées dans un format particulier : fichier texte .hrc.

  • Doit décrire parfaitement l’emboîtement
  • Le nombre de @ désigne le niveau d’emboîtement de chaque catégorie
  • Ne fait pas apparaître le total
  • La fonction write_hrc2() permet de créer un fichier .hrc à partir d’une table de passage

Protéger des tableaux liés

Protéger des tableaux liés avec rtauargus

Utiliser la fonction tab_multi_manager() :

  1. L’utilisateur décrit les tableaux
  2. Fusion automatique de tous les tableaux entre eux
  3. Algorithme gère la protection itérative des tableaux

N.B. La pose du secret à chaque itération est effectuée avec \(\tau\)-Argus.

La fonction tab_multi_manager() fournit un journal sous forme de reporting (étapes pose secret).

Analyser une demande

L’analyse d’une demande

Il faut repérer les liens entre les tableaux pour poser un secret qui les protège vraiment.

Les tableaux diffusés ne sont pas les mêmes que les tableaux à protéger.

Etapes de l’analyse

  1. Réunir les informations nécessaires à la description des tableaux
  • champ
  • variables de croisements
  • variable de réponses (i.e. indicateur)
  • tableaux de fréquence ou de volumes ?
  • description des emboîtements pour les hiérarchies
  • équations ou corrélations entre les variables de réponses

Etapes de l’analyse

  1. La demande peut-elle être découpée en sous-demandes indépendantes ?
  • champs différents et non complémentaires \(\perp\!\!\!\perp\)
  • variables de réponses différentes (et non liées par une équation / corrélation) \(\perp\!\!\!\perp\)
  • variables de croisement toutes différentes \(\perp\!\!\!\perp\)

Dans les cas d’indépendance il faut gérer séparément les différentes sous-demandes.

Etapes de l’analyse

  1. Lister les tableaux nécessaires pour la pose du secret
  • Certaines hiérarchies peuvent conduire à unifier des tableaux
  • Si tableaux additifs, construire un unique tableau en créant une variable supplémentaire
  • Si hiérarchie non-emboîtée, extraire les niveaux concernés pour construire un tableau supplémentaire

Etapes de l’analyse

  1. Préparer les hiérarchies
  • Détecter les variables hiérarchiques
  • Construire les fichiers .hrc nécessaires (manuellement ou avec write_hrc2())

Liens spécifiques

Traiter un lien additif entre des variables réponses

reg1 reg2 T
tr1 5 10 15
tr2 12 18 30
tr3 5 5 10
T 22 33 55

CA couteaux

reg1 reg2 T
tr1 3 8 11
tr2 6 20 26
tr3 2 6 8
T 11 34 45

CA fourchettes

reg1 reg2 T
tr1 8 18 26
tr2 18 38 56
tr3 7 11 18
T 33 67 100

CA couverts


Lien entre les CA : “couverts = couteaux + fourchettes”.

Traiter un lien additif entre des variables réponses

Nouvelle variable de croisement : “type_couverts”.

Région Tr type_couverts chiffre_affaires
reg1 tr1 couteaux 5
reg1 tr1 fourchettes 3
reg1 tr1 couverts 8
Total Total couverts 100

Traiter une hiérarchie non-emboîtée

Ici, l’agrégat 50+ ne peut pas être bien emboîté dans la hiérarchie.

Traiter une hiérarchie non-emboîtée

Créer un second tableau contenant uniquement la ventilation de 50+.

Traiter une hiérarchie non-emboîtée

princ.hrc

<25
25-29
30-69
@30-49
@50-69
70+

alt.hrc

50-69
70+

Faire la fiche pratique

Protéger des tableaux avec une méthode suppressive