Bienvenue à la vingt et unième infolettre !
Début décembre, c’est le deuxième moment dur de l’année après juin. En septembre, on se dit qu’on fera tout cela d’ici Noël, large. Et puis on se réveille, c’est déjà début décembre, la to-do-list est loin d’être finie et la préparation des fêtes de fin d’année arrive à grand pas.
Allez, courage, dernier sprint de 2025 !
L’infographie
Ce mois-ci, découvrez un outil pour visualiser les panaches de pollution aux particules fines (PM2.5) émis par 9 500 sites les plus polluants dans plus de 2 500 zones urbaines. ClimateTRACE reconstitue une journée type de pollution par ces sites à partir des conditions météorologiques réelles.
Spoiler : la pollution de la centrale électrique d’Ivry s’envole jusque très très loin …

Actus du réseau
La troisième journée du réseau a eu lieu le 1er décembre
Le 1er décembre 2025, le réseau a organisé sa troisième journée annuelle. Avec quatre présentations, deux interventions extérieures et un atelier de partage, cette édition a réuni une soixantaine de participants en présentiel et distanciel pour des échanges riches et constructifs. Merci à tous les participants pour leur participation active !
Les présentations
- Offre LLM du SSPCloud : L’Insee (DIIT) a présenté les nouvelles fonctionnalités basées sur les modèles de langage (LLM) disponibles sur le SSPCloud, intégrant de manière plus poussée des fonctionnalités de complétion de code et d’analyses de données.
- Extraction des compétences dans JOCAS : La Dares et l’Insee (DEE) ont partagé une version test de leur projet d’extraction des compétences numériques dans les offres d’emploi, combinant reconnaissance d’entités nommées et classification par LLM. Ce projet vise à améliorer l’analyse des métiers et des parcours professionnels.
- Automatisation des infos rapides justice : Le SSER (SSM Justice) a présenté son package R
chartegraphique.sser, conçu pour automatiser la production des infos rapides justice. Les détails techniques sont disponibles sur le site des Journées de Méthodologie Statistique (JMS). - Package de classification textuelle : L’Insee (SSPLab) a présenté torchTextClassifiers, un package Python de classification textuelle, étendant fastText et reposant sur PyTorch. Ce package permet d’entraîner des modèles maisons à taille réduite en gardant le contrôle de leur architecture.
Atelier collaboratif
Un atelier d’échange entre les participants a permis de partager nos pratiques quotidiennes d’utilisation des outils d’IA pour les data scientists et statisticiens :
- Quels sont nos cas d’usage?
- Quels outils privilégier, et quels sont leurs avantages et limites ?
Nos échanges, riches et nombreux, ont permis de partager des retours d’expérience concrets et nos bonnes (et moins bonnes) pratiques.
Invités
- La Dinum a présenté les dernières évolutions de data.gouv.fr, dont
data.pass. - L’INA a présenté data.ina, un portail pour construire des indicateurs de suivi des médias.
Les présentations et le replay de la journée sont disponibles sur la page de l’événement.
Prochain événement : présentation de Cartographia - 📅 13 janvier 2026 - format mixte (Montrouge et en ligne)
Le prochain événement du réseau sera le 13 janvier 2026. Françoise Bahoken et Nicolas Lambert viendront nous parler de leur livre Cartographia et des questions de cartographie passionnantes qu’ils y abordent.
Nicolas Lambert était déjà intervenu pour présenter Observable, une librairie JavaScript très pratique pour faire des dataviz.
Actualités
Une foule d’articles a été publiée dernièrement sur l’importance de l’open-source, son interdépendance avec les solutions payantes et le coût caché de sa maintenance. Et, bizarrement, il y a moins d’articles sur l’IA ce mois-ci 🤷♀️.
Résilience et open-source
Le monde numérique est très interdépendant
- De récents incidents ont rappelé que notre monde numérique est très interdépendant de solutions parfois lointaines. Un bug dans un logiciel ou service critique, open-source ou payant, se répercute ainsi rapidement à échelle mondiale. Cloudflare a par exemple connu une panne le 18 novembre 20251, mettant KO de nombreux sites, y compris downdetector qui signale les pannes. La panne était due à une mise en production (ratée du coup). De la même manière, une panne de DNS chez Amazon Web Services le 20 octobre 2025 a perturbé de nombreuses applications dans le monde.


La dépendance numérique en images
L’open source dépend du travail gratuit d’inconnus
- Au-delà de la simple interdépendance à des logiciels payants, le code open-source est souvent maintenu bénévolement par des inconnus, comme les secours en mer ou les pompiers volontaires.
Un débat est ainsi apparu après que FFmpeg, un framework open-source vidéo largement utilisé (notamment par Chrome, Firefox ou YouTube), s’est retrouvé submergé de demande de correction de bugs, trouvés par l’IA de Google. Or dans l’open source, les bugs sont réparés par des mainteneurs, le plus souvent bénévoles, et qui ne peuvent plus suivre le rythme. Certaines personnes appellent ainsi Google, et plus largement les entreprises qui bénéficient de l’open-source et génèrent des revenus supérieurs aux PIB de certains pays du monde, à financer directement la maintenance des logiciels open-source qu’ils utilisent même si ce n’est pas qu’une question de financement.
- Des sous, des sous, des sous, oui mais combien ? On parle étonnamment de sommes plutôt faibles : à titre de comparaison, la fondation qui gère Python a un budget annuel de 5 millions de dollars. On l’apprend notamment dans ce billet de blog où la fondation explique pourquoi elle a refusé un financement de 1,5 million de dollars du gouvernement américain après l’avoir demandé (si vous n’avez pas le temps: c’est parce que le financement venait avec l’engagement de ne pas faire de promotion sur les thèmes de la diversité, de l’équité et de l’inclusion).
Des alternatives existent
- Blois : La ville a choisi de prendre la fin des mises à jour de Windows 10 comme une opportunité et de basculer vers PrimTux, une distribution Linux éducative.
- Cour internationale de justice (ICC) : En 2025, la Cour internationale de justice (qui dépend de l’ONU) et 9 de ses magistrats ont été ciblés par des sanctions américaines. Cela serait en soit une histoire en termes de souveraineté, mais vous avez déjà plus d’info en bas de page 2. Le président de la Cour a ensuite perdu l’accès à ses mails. Les versions divergent ensuite : Microsoft a-t-il volontairement coupé l’accès du président à ses mails avant de le rétablir ou cela était-il juste un incident? Toujours est-il que la Cour internationale de justice a annoncé en octobre 2025 son intention de basculer vers des solutions européennes3, comme rapporté par le Handelsblatt (auf Deutsch 🇩🇪).
IA, IA, IA
Les modèles de langage seraient inversibles
Une étude récente (Nikolaou et al., 2025) montre que les modèles de language sont injectifs4 : chaque entrée est mappée à une représentation interne unique. Le papier propose par ailleurs un algorithme, SipIt, capable de reconstruire le prompt original avec 100% de réussite et rapidement.
Very big data isn’t dead
- Du mal à faire tourner des tables de 2 Go ? Imaginez le CERN, où le laboratoire du LHCb génère 25 millions de collisions de protons par seconde, soit la paille de 4 To de données par seconde. Comment faire ? Comme expliqué dans ce post, ils ont mis en place l’infrastructure pour filtrer les données et ne garder que 10 Go de données générées par seconde. C’est un peu la citation de Einstein :
Do not worry about your difficulties in mathematics; I can assure you that mine are still greater.

Ressources et fun
Nouveaux outils
Ressources et formation
- IA : Gender Bias in Large Language Models explique de manière très pédagogique le fonctionnement des LLM
- Python : Python is Not a Great Language for Data Science : comment démarrer en Python, et une comparaison (subjective) entre Python et R
- Docker : Voici un tuto pour (un peu) démystifier les conteneurs et en construire un avec Python.
Fun
- Advent of Code : Un calendrier de l’avent pour développeurs (au niveau certain).
- GenZ vs Boomers : Si vous ne savez pas si vous êtes côté boomer ou genZ, allez faire un tour sur genzplyr et boomerplyr : vous comprendrez vite qu’il y a l’un des deux packages que vous ne comprenez pas. Je sais de quel côté je suis 👴.
Footnotes
Ils ont même eu la bonne idée d’avoir une deuxième panne, plus rapidement réglée, le jour de la rédaction de cette infolettre 🙃.↩︎
Nicolas Guillou, juge français de la CPI qui faisait partie des juges ayant validé les mandats d’arrêt contre le premier ministre israélien et son ministre de la défense, explique dans cet article du Monde et dans son discours au congrès annuel de l’Union Syndicale des Magistrats (USM), ici, ce que signifie concrètement vivre sous sanction américaine. Plus de carte Visa ou Mastercard, vos comptes clients dans des entreprises comme Amazon ou Airbnb sont fermés, des banques, même non implantées aux États-Unis, ferment votre compte bancaire par sur-application des règles (over-compliance). Vos proches sont aussi touchés : interdiction de séjourner aux États-Unis, expulsion s’ils y sont et, légalement parlant, vos proches de nationalité américaine ne peuvent plus vous fournir de service sinon ils pourraient être poursuivis pénalement aux États-Unis. Or, beaucoup de fonctionnaires français ont des enfants américains : il suffit que leurs enfants soient nés aux États-Unis quand les parents travaillaient à l’ambassade de France ou dans les institutions internationales et, grâce au droit du sol, les enfants sont aussi de nationalité américaine.↩︎
L’indépendance complète de ces solutions est par ailleurs sujette à débat.↩︎
vieux rappel de maths : injectif veut dire à peu près que si deux objects transformés sont les mêmes, c’est que les objets avant transformation sont les mêmes.↩︎