3 Comment analyser une demande ?

La liste de tableaux à diffuser n’est pas la même que la liste des tableaux à protéger. En effet, la liste de tableaux à protéger découle d’une analyse des liens entre les différents tableaux. Cette partie a pour but de présenter le cadre de réflexion et les étapes suivies par la DMRG pour définir la liste de tableaux sur lesquels le masque de secret sera posé.

3.1 Étapes de l’analyse de demande

Etapes de l’analyse de la demande

Réunir les informations nécessaires à la gestion de la confidentialité
Séparer la demande en sous-demande indépendantes si possible
Détecter les liens
Construire les hiérarchies éventuellement nécessaires
Lister les tableaux nécessaires pour la pose de secret (passage de la liste de diffusion à la liste de protection).

3.1.1 Vérifier que toutes les informations nécessaires à la gestion de la confidentialité sont disponibles

Les informations nécessaires sont :

Les règles de secret qui s’appliquent sur les données (voir Annexes)
Une description précise des tableaux que votre interlocuteur souhaite diffuser :
- sur quel champ de la population les tableaux sont-ils construits ?
- quelles sont les variables descriptives (de croisement) ?
- quelle est la variable de réponse pour chacun des tableaux ?
- les tableaux sont-ils des tableaux de fréquence ou bien des tableaux de volume ?
- parmi l’ensemble des variables de croisement, certaines sont-elles hiérarchiques ? Les emboîtements ont-ils été fournis ?
Une description précise des liens éventuels entre les variables ou tableaux :
- certaines variables ou modalités sont-elles reliées par une équation ?
- des équations/liens ont-ils été fournis ?
- de fortes corrélations existent-elles entre certaines variables de réponse ?

3.1.2 La demande peut-elle être séparée en plusieurs sous-demandes indépendantes ?

Des tableaux portant sur des variable de réponse différentes, non liées par une équation ou par un lien de corrélation fort, peuvent être traités séparément.
Des tableaux construits sur des champs différents et non complémentaires peuvent être traités séparément.
Y a-t-il au contraire des tableaux qui doivent être traités dans dans le même temps ?
- rassembler les tableaux partageant la même variable de réponse et le même champ, car ils partagent a minima le même super-total (n.b. on ne les fusionne pas on les rassemblent juste pour les traiter ensemble)
- déterminer les tableaux liés entre eux par leurs marges
- déterminer les tableaux liés entre eux car “additifs”
- déterminer les tableaux liés entre eux par la présence potentielle de hiérarchies non-emboîtées

Chaque sous-demande doit faire l’objet d’un traitement à part, en suivant les mêmes étapes.

3.1.3 Détecter les liens

Il y a deux principaux types de liens sur les variables réponse :

les hiérarchies
- emboîtées (voir Notions)
- non-emboîtées (voir Notions)
les équations du type A = B + C
- entre les variables réponses
- au niveau des champs

En présence de tels liens il faut parfois regrouper des tableaux en un seul (hiérarchie emboîtée sur une variable de croisement), ou au contraire construire deux tableaux à partir d’un seul (hiérarchie non-emboîtée). Dans tous les cas lorsque des tableaux sont liés il faut les traiter ensemble afin que lorsqu’une cellule est touchée dans un tableau, elle le soit aussi automatiquement dans tous les autres tableaux où elle apparaît.

3.1.4 Passer de la liste de diffusion à la liste de protection

La liste de diffusion est la liste de tableaux qui sera effectivement publiée. Elle diffère de la liste de protection qui elle est à établir en fonction des liens entre les différents tableaux. En effet, pour poser le secret pertinemment il faut renseigner les différents liens pour que l’algorithme en tienne compte.

Par exemple on peut être amené à :

Rassembler en un seul tableau les tableaux liés car “additifs”.
Séparer en plusieurs tableaux un tableau qui contiendrait des sous-totaux non-emboîtés.

De plus, si les données sont sous forme de micro-données il faut calculer les agrégats qui seront diffusés pour établir la liste de diffusion. En effet, nous ne posons pas le secret sur les micro-données mais sur les agrégats. Pour ce faire la fonction tabul_fun_group permet de facilement construire les tables agrégées sous le bon format pour les mettre en entrée de rtauargus.

3.2 Fiches exemples d’analyse de demandes

3.2.1 Exemple 1 : niveau facile

Demande - on souhaite diffuser 4 tableaux

T1 : population par âge (5 classes), par sexe et par département
T2 : population par sexe, par diplôme et par département
T3 : population par catégorie catégorie socio-professionnelle, par statut d’activité et par département
T4 : population par âge, par sexe et par statut d’activité

En formalisant :

T1 : pop \(\bigotimes\) {age x sexe x dep}
T2 : pop \(\bigotimes\) {sexe x dip x dep}
T3 : pop \(\bigotimes\) {socpro x act x dep}
T4 : pop \(\bigotimes\) {age x sexe x act}

Analyse

Les tableaux partagent le même champ (sous-entendu) et le même indicateur (population), ils sont donc liés a minima par le total, donc il n’y a pas de sous-demande indépendante.

De plus, certains tableaux ont des variables de croisement communes, il y a un lien sur les marges, les liens n’en sont que renforcés.

Les variables entre elles n’ont pas de lien hiérarchique (le seul niveau géographique est le département), donc les tableaux ne doivent pas être fusionnés.

Finalement, la liste des tableaux à protéger est identique à la liste des tableaux à diffuser.

3.2.2 Exemple 2 : niveau moyen

Demande - on souhaite diffuser 7 tableaux

T1 : population par âge (5 classes), par sexe et par département
T2 : population par sexe, par diplôme et par département
T3 : population par catégorie catégorie socio-professionnelle, par statut d’activité et par département
T4 : population par âge, par sexe et par statut d’activité
T5 : population par âge (5 classes), par sexe et par région
T6 : population par sexe, par diplôme et par région
T7 : population par catégorie socio-professionnelle, par statut d’activité et par région

En formalisant :

T1 : pop \(\bigotimes\) {age x sexe x dep}
T2 : pop \(\bigotimes\) {age x dip x dep}
T3 : pop \(\bigotimes\) {socpro x act x dep}
T4 : pop \(\bigotimes\) {age x sexe x act}
T5 : pop \(\bigotimes\) {age x sexe x reg}
T6 : pop \(\bigotimes\) {sexe x dip x reg}
T7 : pop \(\bigotimes\) {socpro x act x reg}

Analyse

Les tableaux partagent le même champ (sous-entendu) et le même indicateur (population), ils sont donc liés a minima par le total, donc il n’y a pas de sous-demande indépendante.

De plus, certains tableaux ont des variables de croisement communes, il y a un lien sur les marges, les liens n’en sont que renforcés.

Deux variables ont un lien hiérarchique (région > département), lorsque l’information est hiérarchisée (et emboîtée) il faut la traiter dans un même tableau en créant une variable hiérarchique qu’on peut appeler par exemple GEO. De plus, on peut fusionner les tableaux partageant les mêmes variables de croisement.

La liste des tableaux à protéger est donc la suivante :

T1 : pop \(\bigotimes\) {age x sexe x GEO}
T2 : pop \(\bigotimes\) {sexe x dip x GEO}
T3 : pop \(\bigotimes\) {socpro x act x GEO}
T4 : pop \(\bigotimes\) {age x sexe x act}
où GEO est une variable hiérarchique emboîtant régions et départements

3.2.3 Exemple 3 : niveau expert

Demande - on souhaite diffuser 4 tableaux

T1 : population par âge (3 classes : <25, 25-55, +55) et par département
T2 : population par âge (5 classes : <15, 15-25, 25-45, 45-65, +65), par sexe et par département
T3 : population par âge (3 classes : <25, 25-55, +55) et par région
T4 : population par âge (5 classes : <15, 15-25, 25-45, 45-65, +65), par sexe et par région

En formalisant :

T1 : pop \(\bigotimes\) {age_3 x dep}
T2 : pop \(\bigotimes\) {age_5 x sexe x dep}
T3 : pop \(\bigotimes\) {age_3 x reg}
T4 : pop \(\bigotimes\) {age_5 x sexe x reg}

Analyse

Les tableaux partagent le même champ (sous-entendu) et le même indicateur (population), ils sont donc liés a minima par le total, donc il n’y a pas de sous-demande indépendante.

De plus, certains tableaux ont des variables de croisement communes, il y a un lien sur les marges, les liens n’en sont que renforcés.

Deux variables ont un lien hiérarchique (région > département) :

les tableaux T1 et T3 partagent les mêmes variables de croisement et peuvent donc être fusionnés
les tableaux T2 et T4 partagent les mêmes variables de croisement et peuvent donc être fusionnés

La variable âge est ventilée différemment entre T1 et T2 (ainsi qu’entre T3 et T4). On doit donc se demander si les différentes modalités de l’âge sont emboîtées. On peut présenter la hiérarchie ainsi :

<25
@<15
@15-25
25-55
@25-45
@45-55
+55
@55-65
+65

Il n’est pas possible d’insérer la modalité 45-65 dans cette hiérarchie, il s’agit donc d’un cas de hiérarchie non-emboîtée. En effet, 45-65 = 45-55 + 55-65 est un agrégat non-emboîté qui devra être traité en construisant un tableau séparé.

Une première étape d’analyse mène à la liste des tableaux à protéger suivante :

T1 : pop \(\bigotimes\) {AGE_hrc_princ x GEO}
T1bis : pop \(\bigotimes\) {AGE_hrc_spe x GEO}
T2 : pop \(\bigotimes\) {AGE_hrc_princ x sexe x GEO}
T2bis : pop \(\bigotimes\) {AGE_hrc_spe x sexe x GEO}
où GEO est une variable hiérarchique emboîtant régions et départements
où AGE_hrc_princ (hiérarchie principale) est une variable hiérarchique emboîtant l’ensemble des catégories d’âge hors 45-65
où AGE_hrc_spe (agrégat spécial) a les modalités : 45-65 = 45-55 + 55-65

On remarque que T1 est en réalité déjà “contenu” dans T2. Puisque le croisement AGE_hrc_princ x GEO est présente dans T2. De même T1bis est contenu dans T2bis. On peut donc regrouper ces tableau. Finalement, on se retrouve avec cette liste de tableaux à protéger :

T1 : pop \(\bigotimes\) {AGE_hrc_princ x sexe x GEO}
T2 : pop \(\bigotimes\) {AGE_hrc_spe x sexe x GEO}
où GEO est une variable hiérarchique emboîtant régions et départements
où AGE_hrc_princ (hiérarchie principale) est une variable hiérarchique emboîtant l’ensemble des catégories d’âge hors 45-65
où AGE_hrc_spe (agrégat spécial) a les modalités : 45-65 = 45-55 + 55-65