Aspects juridiques et réglementaires du big data : un retour d’expérience

BCEAO - Jour 4

28 septembre 2023

⚠️ Disclaimer ⚠️

  • Nous ne sommes pas des experts juridiques.
  • Cette présentation ne vise qu’à introduire des concepts généraux.
  • ❓ Pour des questions juridiques précises, veuillez contacter l’Unité Affaires Juridiques et Contentieuses (UAJC) :
    • Dirigée par Patrick Redor à

1️⃣ Les nouveaux enjeux juridiques lié au big data

Collecte des données

  • Nombreux acteurs privés et publics peuvent collecter des données produites directement ou indirectement par les individus.
  • Collecte de données personnelles sans consentement explicite.
  • Possibilité de violation de la vie privée des utilisateurs.
  • ➡️ Explication des motifs et intentions de collecte des données nécessaire.

Exemple de risque potentiel

Application de santé collectant des données biométriques de ses utilisateurs sans leur consentement explicite.

Croissance du numérique

Stockage et sécurité des données

  • Volume des données pose la difficulté du stockage.
  • Coûts d’investissement importants et marché monopolisé par les GAFAM.
  • Problématique de la souveraineté numérique.
  • ➡️ Mesures de sécurité essentielles pour la protection des données.

Exemple de risque potentiel

  • Possibilité de violation de la sécurité des données ou de partage de données avec une entité gouvernementale.
  • Incendie OVH en janvier 2023.

Open Data et secteur public

  • Mise à disposition publiquement et gratuitement des données.
    • En France, loi Lemaire 2016 :
    • Open Data des autorités publiques dans un cadre reglementé.
  • Objectif double 🎯 :
    • 1️⃣ Transparence démocratique et ouverture d’information.
    • 2️⃣ Favoriser l’innovation économique et sociale.
  • L’Open Data se démocratise aussi dans le secteur privé !

Propriété intellectuelle

  • Gestion des licences ©️ :
    • Développement de l’open source et du partage de données.
    • Nécessité d’apposer et de respecter des licences claires.
  • Équilibre difficile entre protection et innovation ⚖️ :
    • Les lois sur le droit d’auteur établies ont du mal à prendre en compte les nouvelles technologies
    • Développement de nouveaux outils d’Intelligence Artificielle (IA)

Des méthodologies toujours plus innovantes…

  • Grands modèles de langage (LLM)
    • ChatGPT, LLama2, Bard…
  • Modèles de génération d’images
    • Midjourney, Stable Diffusion, Dall-E
  • Modèles Deep fake :
    • FakeApp

… créant de nouvelles problématiques

2️⃣ Réglementations clés

Loi sur le secret statistique 7 juin 1951

  • Contexte :
    • 🇫🇷 Loi Française, promulguée en 1951.
    • Protéger les personnes physiques et morales
    • Garantir la confiance des citoyens envers l’Insee

Loi sur le secret statistique 7 juin 1951

  • Communication strictement interdite des données individuelles :
    • 🚫 Réutilisation à des fins de contrôle fiscal ou de répression économique
  • S’applique à la diffusion de statistiques :
    • 🚫 Diffusion de données permettant la réidentification
  • Création du Cnis, du comité du Label et de l’ASP

Loi informatique et liberté 1978

  • Contexte :
    • 🇫🇷 Loi Française, promulguée en 1978.
    • 🤖 Concerne les traitements automatisés de données personnelles

Loi informatique et liberté 1978

  • Déclaration à la CNIL des fichiers contenant des données personnelles
  • 🚫 Collection de données à caractère sensible (religion, la santé, la politique, etc) interdite
  • Principe de collecte loyale de données
  • Assurer la sécurité des données collectées
  • Obligation d’informer les individus concernés de la collecte de leurs données
  • Droit à l’accès, la modification et la suppression des données en question

Loi pour une République Numérique

  • Contexte :
    • 🇫🇷 Loi Française, promulguée en 2016.
    • 📈 Réponse à l’expansion rapide du numérique dans la société.
    • ⚖️ Equilibre entre innovation, inclusion, protection et confiance.

Circulation des données et du savoir

  • L’ouverture des données publiques par défaut :
    • L’État, les collectivités locales… et l’Insee !
    • Code sources et bases de données, sous condition d’anonymisation.
    • CADA et CNIL pour la mise en oeuvre des règles.
  • Création d’un service public de la données Etalab.
  • Libre accès des papiers académique financés à +50% par fond public.
  • Ouverture des données d’intérêt général (transports, eau, déchets, consommation d’énergie…).

La protection des droits dans la société numérique

  • Principe de la neutralité de l’internet inscrit dans le droit français ➡️ Arcep
  • 3 obligations des plateformes en ligne : loyauté, clarté et transparence
  • Protection de la vie privée sur internet :
    • Droit à l’oubli numérique
    • Droit à la mort numérique
    • Règle du secret des correspondances privées : Décret

L’accès au numérique pour tous

  • Le numérique dans tous les territoires :
    • Couverture 4G + sanctions opérateurs
  • Le numérique au bénéfice des publics fragiles

Règlement Général sur la Protection des Données (RGPD) de l’UE :

  • Contexte :
    • 🇪🇺 Loi Européenne, promulguée en 2016.
    • Harmonisation des règles de protection des données
    • Le pendant de la Loi informatique et liberté 1978 française

Champ d’action du RGPD :

  • Tout organisme peut être concerné
  • RGPD s’applique à toute organisation qui traite des données personnelles dès lors que :
    • Établie sur le territoire de l’Union européenne
    • Activité cible directement des résidents européens

Data Act :

  • Contexte :
    • 🇪🇺 Loi Européenne, adoptée en 2022.
    • Clarifie que peut créer de la valeur à partir des données et sous quelles conditions

Une répartition équitable de la valeur issue des données

  • Internet of Things (IoT) génère beaucoup de données personnelles
  • Potentiel économique est contrôlé par quelques acteurs dominants
  • Favoriser l’ouverture des données IoT :
    • Accès aux fournisseurs de service d’après vente

Lever les obstacles à la concurrence du Cloud

  • Supprimer les principales barrières érigées par les fournisseurs dominants pour accéder à un cloud concurrent :
    • Suppression des frais de transfert de données et de migration
  • 🎯 Préserver la liberté de choix des utilisateurs et à stimuler l’innovation sur le marché

3️⃣ Retour d’expériences à l’Insee

1️⃣ Le cas du webscrapping

  • Webscraping : techniques d’extraction de contenu sur des sites internet.
  • Usage de bots pour collecter ces contenus automatiquement.

Le webscraping, est-ce légal ?

  • Le webscraping en lui-même n’est pas une pratique illégale …
    • … Mais l’utilisation faite des données scrapées peut être soumise à réglementation
    • Ces règles dépendent alors du [pays] dans lequel on se trouve ainsi que des données scrapées

Attention

Diffuser ou commercialiser des données scrapées ou un quelconque travail réutilisant ces données n’est pas sans conséquence.

Une frontière floue

  • Peu de cadre juridique sur le webscrapping et différent par pays.
    • Mais la réutilisation des données est encadrée (RGPD).
  • Résultats différents sur les cas portés en justice:

Une pratique pourtant très répandue

  • Cas d’usage très nombreux, même à l’Insee !
  • Pas de concensus sur la légalité de la pratique.

Les sites se protègent aussi eux-mêmes

  • Éviter la réutilisation de leurs contenus par des concurrents et lutter contre l’espionnage.
  • Blocage des bots (ralentissement du site)

Les méthodes de protection

  1. Mise en place de conditions d’utilisation contraignantes
  2. Bloquer les adresses IP suspectes
  3. Renvoyer de fausses données
  4. Limiter les requêtes ou la bande passante consommée par une même source
  5. Modifier régulièrement le format HTML
  6. Utiliser des CAPTCHAs lorsqu’une activité suspecte est repérée
  7. Créer des pagesHoneypot
  8. Nécessiter une identification pour accéder au site

Les limites du webscraping

  • La qualité des données souvent douteuse.
  • Besoin de contrecarrer les protections :
    • Automatisation compliquée
    • Question sur la pérennité de la collecte
  • Les risques légaux

Remarque

Il est préférable de privilégier d’autres modes d’accès aux données (API) lorsque cela est possible.

Les guidelines du Système Statistique Européen

Transparence

  • Publier la liste des collectes de données par scraping de l’INS
  • Informer spécifiquement le site concerné
  • S’identifier auprès du site lors de l’opération de scraping

Les guidelines du Système Statistique Européen

Minimiser l’impact

  • Limiter les requêtes effectuées au minimum requis
  • Privilégier les heures creuses du site
  • Étaler les requêtes dans le temps

Les guidelines du Système Statistique Européen

Confiance

  • Favoriser les échanges avec les propriétaires des sites : partenariats, échanges de données, requêtes d’API…
  • Se plier aux conditions d’utilisation des sites concernés
  • Manipuler de façon sécurisée les données scrapées, notamment les données personnelles i.e. respecter le RGPD

Scraping à l’INSEE

Quand ?

  • Le webscraping est utilisé en dernier recours, l’INSEE favorisera :
    • Les accords avec des partenaires (ex : seloger.com)
    • L’utilisation d’API (ex : Qwant, Yahoo Finance)
    • Les sources de données publiques
  • Le webscraping devient cependant une source de données grandissante.

Scraping à l’INSEE

Utilisation

Le scraping est notamment utilisé pour le calcul des indices des prix :

  • Prix des transports (trains via site de la SNCF, domaine maritime)
  • Prix de produits divers (surtout de l’électronique)
  • Prix dans le domaine de l’hôtellerie (avec booking.com)
  • D’autres utilisations ponctuelles peuvent également être faites

Scraping à l’INSEE

Organisation

  • Un scraping encore par cas d’usage, avec une gestion plus globale en cours de maturité
    • Objectif de mutualisation entre les équipes statistiques
    • La logique open source comme moyen de mutualisation
  • Beaucoup de Python, un peu de R et de Java

Les prix dans le domaine de l’hôtellerie (Booking.com)

Références

  • Un travail ayant donné lieu à une publication
    • Adrien Montbroussous, Camille Freppel and Ombéline Guillon, “webscraping of a booking platform: exploring new data and methodology for the hotel service consumer price index”, Paper for the 17th International Conference of the Ottawa Group, Rome
  • Une présentation plus accessible ici

Les prix dans le domaine de l’hôtellerie (Booking.com)

Le code

  • But : collecter davantage de données pour calculer au mieux les indices d’évolution de prix pour l’hôtellerie.
  • La partie ‘scraping’ du projet est disponible ici.
  • Pour plus d’informations, contacter (INSEE).
  • La conférence associée aux présentations : ici
    • D’autres projets similaires de scraping mentionnés

Ventes d’articles électroniques

Références

  • But : collecter davantage de données pour calculer au mieux les indices de prix associés au secteur
    • Projet encore à une étape expérimentale
  • Scraping de Boulanger : ici
  • Scraping de Rue du Commerce : ici
  • Pour plus d’informations, contacter (INSEE).

2️⃣ Les données de téléphonie mobiles

3️⃣ Les données de carte bancaire