11  Règles

Eléments de la note au CD :

Référence l’article de P. Redor dans le courrier stat : “Confidentialité des données statistiques : un enjeu majeur pour le service statistique public”, P. Redor - Courrier des statistiques N9 - 2023.

Loi de 1951 : loi sur l’obligation, la coordination et le secret en matière de statistiques (définit le secret statistique). Loi de 1978 : loi Informatique et libertés (définit la protection des données personnelles).

On se fixe des règles pour simplifier l’application mais l’objectif est avant tout de protéger l’information individuelle (de n’importe quel individu).

Les règles du secret statistique sont des seuils définis que l’Insee instaure pour minimiser les risques de ré-identification tout en gardant une utilité certaine des données. Cette partie présente les règles les plus connues du SSP. Le lecteur est invité à se renseigner sur les règles à appliquer sur les données qu’il souhaite publier avant de commencer à poser le secret. Il pourra, en particulier, retrouver des informations précieuses sur la page intranet dédiée à la présentation des sources des Produits sur Mesure. En cliquant sur la source sur laquelle vous travaillez, les informations sur les règles du secret statistique sont précisées dans la sous-partie “secret statistique”.

11.1 Règles pour la statistique d’entreprises

Règle de fréquence : une cellule d’un tableau ne doit pas être construite à partir de strictement moins de 3 unités. N.B. pour les bases de données pondérées on applique la règle de fréquence sur les pondérations. Si une cellule est construite par 2 répondants mais en représente davantage, alors elle est diffusable. Il faut veiller à ce que l’échantillon et la pondération restent confidentiels.

Règle de dominance : 1 unité contributrice à une cellule ne peut contribuer à plus de 85% de la valeur de celle-ci. Afin, de pouvoir appliquer cette règle il faut donc déterminer pour chaque cellule du tableau le plus gros contributeur. N.B. pour les bases de données pondérées la cellule est sensible si le contributeur maximal (non pondérée) est supérieur à 85% du total de la cellule (pondéré). \(MAX_{nonpond} > 0.85*FREQ_{pond}\)

11.2 Règles pour les données fiscales (provenant de la DGFiP)

Règle de fréquence : une cellule concernant une personne physique concernant moins de 11 unités ne doit pas être diffusée. Ce seuil est appliqué en particulier aux données se rapportant aux entreprises individuelles. Voici quelques exemples de données concernées par ce seuil :

  • données relatives à l’impôt sur le revenu (IR)
  • données relatives aux bénéfices industriels et commerciaux, aux bénéfices non commerciaux, aux bénéfices agricoles, à la taxe sur la valeur ajoutée, à la cotisation foncière des entreprises (CFE), à la cotisation sur la valeur ajoutée des entreprises (CVAE)
  • données relatives à tout autre type d’imposition dès lors que ces données se rapportent à des personnes physiques

En matière d’impôt de solidarité sur la fortune et d’impôt sur la fortune immobilière, les règles de communication sont les suivantes :

  • le nombre de contribuables assujettis doit être supérieur ou égal à 50 ;
  • en cas de ventilation par communes, celles-ci doivent comporter plus de 20 000 habitants

Règle de dominance : 1 unité contributrice à une cellule ne peut contribuer à plus de 85% de la valeur de celle-ci. Afin, de pouvoir appliquer cette règle il faut donc déterminer pour chaque cellule du tableau le plus gros contributeur. N.B. pour les bases de données pondérées la cellule est sensible sur le contributeur maximal (non pondérée) est supérieur à 85% du total de la cellule (pondéré). \(MAX_{nonpond} > 0.85*FREQ_{pond}\)