Acquisition
Images satellite
Pléiades
Les images Pléiades présentent l’avantage d’offrir une très haute résolution (50 cm). Toutefois, elles sont la propriété d’Airbus, ce qui limite leur accessibilité : l’acquisition passe généralement par un achat de licence. En tant qu’institution française, nous bénéficions d’un accès gratuit à ces données via Dinamis. Il suffit de créer un compte sur Dinamis et de réaliser une demande d’accès. Nous avons un contact à l’IGN pour simplifier la procédure et il nous transmet les images directement. Toutefois, même avec ce canal, il reste nécessaire de créer un compte Dinamis et de signer un contrat de licence d’utilisation.
Lorsque les images sont disponibles, notre interlocuteur à l’IGN nous en informe par mail, en transmettant les accès à un serveur FTP. Les données peuvent alors être extraites puis transférées sur le S3 du namespace projet-slums-detection
au sein du Datalab, selon la structure décrite dans @data-raw.
- Ouvrir un service VSCode sur le Datalab. ⚠️ Pour les volumes importants, pensez à augmenter la persistance (ex : 500Gi) lors du lancement du service.
- Cloner le dépot d’inférence etaccéder au script
bash/download_pleiades_ign.sh
. - Renseigner les informations spécifiques au serveur FTP ainsi que les arguments nécessaires (département, année).
- Exécuter le script pour télécharger les données localement dans le service. Vous pouvez ensuite explorer les fichiers comme d’habitude (
cd
,ls
, etc.). - Une fois en local, vérifiez que les images soient bien au format
.tif
, si ce n’est pas le cas, exécuter le scriptsrc/write_jp2_to_tiff.py
pour les convertir et les stocker sur le S3
Sentinel-2
Pour un accès libre et beaucoup plus rapide, l’utilisation des images Sentinel-2 constitue une alternative intéressante. Ces images ont une résolution de 10 mètres. Les images Sentinel-2 peuvent être récupérées via différentes plateformes comme Google Earth Engine, Sentinel Hub ou encore Copernicus Data Space Ecosystem. Un exemple d’utilisation et de téléchargement de ces données est disponible dans le dépôt Hackathon NTTS 2025, en consultant le script preprocess/main_nuts.py
.
Labels (pour l’entraînement du modèle)
BDTOPO
La BD TOPO est une description vectorielle 3D (structurée en objets) des éléments du territoire et de ses infrastructures, de précision métrique, exploitable à des échelles allant du 1 : 2 000 au 1 : 50 000.
Les objets de la BD TOPO® sont regroupés par thèmes :
- Administratif (limites et unités administratives) ;
- Bâti (constructions) ;
- Hydrographie (éléments ayant trait à l’eau) ;
- Lieux nommés (lieu ou lieu-dit possédant un toponyme et décrivant un espace naturel ou un lieu habité) ;
- Occupation du sol (végétation, estran, haie) ;
- Services et activités (services publics, stockage et transport des sources d’énergie, lieux et sites industriels) ;
- Transport (infrastructures du réseau routier, ferré et aérien, itinéraires) ;
- Zones réglementées (la plupart des zonages faisant l’objet de réglementations spécifiques).
Dans notre cas, seule la couche Bâti a été utilisée.
Les données de la BDTOPO sont accessibles au format archivé 7z soit en shapefile soit en geopackage à l’adresse suivante : https://geoservices.ign.fr/bdtopo#telechargementgpkgreg. Elle est stockée par département.
COSIA
Les cartes CoSIA décrivent la couverture du sol, soit la nature du sol, selon 16 classes (bâtiment, surface d’eau, conifère, culture, broussaille…). Cette description du sol est produite pour tout le territoire français (métropole et DROM) et avec une haute résolution de 20 cm par pixel. Ces annotations ont été obtenues par l’IGN à l’aide d’un modèle de ML. Il faut donc bien garder en tête qu’on utilise des prédictions d’un modèle comme ground truth.
- Accéder au site COSIA
- Remplir le formulaire d’accès et sélectionner le territoire d’intérêt. Télécharger le fichier
.zip
- L’importer dans un service du Datalab, le décompresser (commande
unzip
sous Linux) et organiser les fichiers selon la structure attendue sur S3.
🗺️ Géométrie d’ilots
La géographie des ilots est arrêtée chaque année au 31 octobre.
C’est cette géographie qui s’applique pendant le Recensement de la Population (RP).
📌 Exemple : pour l’enquête de recensement 2026, on utilise la géométrie des ilots arrêtée au 31 octobre 2025.
Dans tous les cas, il faut s’assurer que le SERN Géographie et le ST Mayotte utilisent bien la même version des ilots (des changements exceptionnels peuvent être demandés en cas d’urgence).
- Envoyer un mail au SERN géographie
- Récupérer le dossier zip fourni et le placer dans le dossier cluster-geom-raw sur le s3
- Lancer ce code pour preprocesser le dossier afin de créer un fichier parquet par département qui se placeront dans le dossier data-clusters