SSPHub

// echo: false
// output: false
inscrits = 730

// echo: false
badge = html`<a href="https://grist.numerique.gouv.fr/o/ssphub/forms/jSjAV3L2F8mmiRVuVEpfF7/103"><img alt="Static Badge" src="https://img.shields.io/badge/${inscrits}_inscrits-blue?style=social&label=⭐️%20Rejoindre%20la%20liste%20de%20diffusion&color=8A2BE2&link=https%3A%2F%2Fgrist.numerique.gouv.fr%2Fo%2Fssphub%2Fforms%2FjSjAV3L2F8mmiRVuVEpfF7%2F103">
</a>
`

Le réseau des data scientists de la statistique publique

// echo: false
html`${badge}`

Le SSPHub centralise et vise à faire connaître le contenu créé par le réseau des data scientists du Service Statistique Publique (SSP).

Une présentation du réseau est disponible sur la page à propos. Pour en savoir plus sur les objectifs du réseau, sa philosophie, et ses modes d’actions, vous pouvez découvrir le Manifeste 📜 écrit collectivement.

Les derniers billets de blog et événements

L’ensemble des billets de blog peut être retrouvé sur la page dédiée, tout comme les événements.

Troisième journée du SSPHub

Programme et modalités d’inscription à la 3e journée du réseau

Sep 15, 2025

Atelier - Comment récupérer des données sous format Parquet ?

Le format Parquet est un format de données connaissant une popularité importante du fait de ses caractéristiques techniques (orientation colonne, compression…

Apr 16, 2025

Atelier - Comment récupérer des données par API ?

Les API (Application Programming Interface) sont un mode d’accès aux données en expansion. Grâce aux API, l’automatisation de scripts est facilitée puisqu’il n’est plus…

Apr 9, 2025

Deuxième journée du SSPHub

Programme et modalités d’inscription à la 2e journée du réseau

Oct 14, 2024

Quarto : Une évolution de R Markdown pour des travaux statistiques reproductibles

Pour fiabiliser la production de documents construits en valorisant des données (tableaux, graphiques, etc.), RStudio (devenu Posit depuis) a construit il y a quelques…

May 2, 2024

Eric Mauvière, “La dataviz pour donner du sens aux données et communiquer un message”

Le 29 février (15h - 16h), Eric Mauvière nous fera une présentation, avec de nombreux exemples issus de la statistique publique, de la manière dont une visualisation de…

Feb 29, 2024

Guide d’utilisation des données du recensement de la population au format `Parquet`

Un post de blog pour accompagner la mise à disposition des données détaillées du recensement au format Parquet.

Oct 23, 2023

Onyxia: l’infrastructure cloud mère des dragons

Les technologies cloud sont incontournables dans l’écosystème de la donnée. Pour ne pas se rendre dépendante de fournisseurs de services externes, l’Insee a développé un…

May 10, 2023

Première journée du SSPHub

Replay de la première journée de présentation du SSPHub

Mar 29, 2023

“OCRisation, état de l’art et projets auxquels participe Teklia” par Christopher Kermorvant

Le 29 mars de 15h à 16h nous recevons Christopher Kermorvant, chercheur spécialisé en OCRisation et fondateur de Teklia. Il nous fera un état de l’art de l’OCRisation puis…

Mar 29, 2023

Présentation du projet Meta Academy - Carpentries

Pour favoriser l’adoption des langages R, Python et Git dans les administrations, le programme ModernStat piloté par l’OCDE et Statistics Canada, a lancé un projet…

Mar 28, 2023

Présentation des packages R et Python pour accéder à l’open data de l’Insee

L’Insee met à disposition ses données par le biais d’API ou par son site web. Pour faciliter la…

Feb 13, 2023

Polars, une alternative fraîche à Pandas

Polars, une alternative moderne et fluide à Pandas

Feb 10, 2023

Présentation de gridviz par Julien Gaffuri

Evénement de présentation de gridviz par Julien Gaffuri (Eurostat)

Jan 20, 2023

Infolettre n°9

Après la rétrospective de l’année 2022 de la data science, il est temps de se pencher sur l’année du réseau avec des visualisations interactives produites grâce à…

Jan 10, 2023

Infolettre n°8

La data science a beaucoup fait parler d’elle en 2022, notamment du fait des deux coups médiatiques d’openAI, à savoir…

Dec 31, 2022

Présentation d’Observable par Nicolas Lambert

observable est la nouvelle plateforme de dataviz réactive. Initiée par Mike Bostock (créateur de D3.js), ce réseau social de la dataviz a pour…

Nov 16, 2022

Le plongement lexical ou comment apprendre à lire à un ordinateur

Introduction aux méthodes de traitement du langage naturel.

Oct 3, 2022

Funathon de juin 2022

Présentation du deuxième Funathon du SSPLab organisé le 20 juin 2022 autour de 9 sujets, en R et en Python.

Jun 19, 2022

Funathon de juin 2021

Présentation du premier Funathon du SSPLab organisé le 21 juin 2021 autour de 8 sujets, en R et en Python, à partir de données Airbnb

Jun 20, 2021

Les projets innovants du SSPHub

L’ensemble des projets innovants peut être retrouvé sur la page dédiée.

Utilisation des images satellites pour la statistique publique

Utiliser les images satellites pour améliorer le recensement de la population dans les territoire ultra-marins

Oct 1, 2022

Travaux méthodologiques sur l’enquête Budget de Famille

Modernisation de l’enquête budget des familles par utilisation d’outils de classification automatique

Jan 1, 2022

Codification automatique de l’activité principale des entreprises

Développer un algorithme de machine learning pour automatiser la classification de l’activité principale des entreprises et mise en production

Jan 1, 2022

Extraction automatique du tableau des filiales et participations des comptes sociaux des entreprises

Extraire les informations de tableaux de comptes sociaux, en particulier des tableaux des filiales et participations, contenus dans des images scannées mises à disposition…

Jan 1, 2021

Codification automatique des professions dans la nomenclature PCS 2020

Codifier automatiquement les professions dans le cadre de la bascule vers la nouvelle nomenclature PCS (PCS 2020)

Jan 1, 2021

Comparaison des méthodes d’appariement et apport du machine learning

Tester et comparer différentes méthodes d’appariements afin de dégager des recommandations pour les travaux nécessaires à la construction des répertoires, notamment dans le…

Jan 1, 2021

Classification des données de caisse à partir de machine learning

Classifier des données de caisse dans la nomenclature COICOP par machine learning pour le calcul de l’IPC

Jan 1, 2020

Les dernières newsletters

Toutes les newsletters précédemment publiées sont disponibles sur la page dédiée.

La rentrée 2025: actualités, nouveautés, interview de rentrée

Infolettre du mois de Septembre 2025

Sep 29, 2025

Sora, la nouvelle IA d’OpenIA pour générer des vidéos ; Le Chat, le nouveau modèle de Mistral ; Observable, pour s’abstraire des notebooks

Infolettre du mois de Mars 2024

Mar 7, 2024

Le RAG pour limiter l’hallucination par l’IA ; l’avancée des bases de données vectorielles ; le format Parquet pour simplifier leur usage ; DuckDB débarque en version web

Infolettre du mois de Février 2024

Jan 20, 2024

Rétrospective du réseau en 2023 (cocorico, beaucoup de nouveaux inscrits !) ; des nouvelles règles européennes pour l’IA ; le recensement de la population au format parquet ; un explorateur de fichier sur le SSPCloud

Infolettre du mois de Décembre 2023

Dec 21, 2023

Coûts d’entrée trop élevés pour l’entraînement des modèles de langage qui s’orientent vers l’opensource ; LlaMaA et Falcon les nouveaux LLM

Infolettre de rentrée, Septembre 2023

Sep 10, 2023

Propositions de lecture estivale

Infolettre estivale, Juillet 2023

Jul 1, 2023

Des innovations rapides sur l’IA qui lancent un débat sur sa place dans la société ; algorithme de recommandation de Twitter

Infolettre du mois d’Avril 2023

Apr 1, 2023

Tapis rouge et graph de l’Insee ; questionnement sur l’IA ; faillite dans la Silicon Valley

Infolettre du mois de Mars 2023, deuxième quinzaine

Mar 15, 2023

ChatGPT continue de faire parler ; Arrow et Polars pour le traitement de données tabulaires ; l’API Huggingface accessible depuis un navigateur web

Infolettre du mois de Mars 2023

Mar 1, 2023

DoReMiFaSol pour récupérer des données de l’Insee ; une masterclass datascientest sur les NLP et l’analyse d’images

Infolettre du mois de Février 2023

Jan 30, 2023

Retex sur 2022, première année du réseau des datascientists ; snapshot de l’état du réseau à date ; présentation de Gridviz

Infolettre du mois de Janvier 2023

Jan 10, 2023

L’année 2022 dans le monde de la data science : IA, transformation de RStudio, Observable

Infolettre du mois de Décembre 2022

Dec 31, 2022

Archive des infolettres et lettres Big Data

Les infolettres et lettres Big Data antérieures 👵👴, avant la publication sous forme de blog

Aug 31, 2022

Les réseaux partenaires

Quelques communautés de la data-science avec lesquels nous collaborons

Onyxia

La communauté Onyxia, à l'origine du SSPCloud, a pour objectif de fournir une plateforme flexible pour expérimenter les outils modernes de la data-science.

Spyrales

Une communauté d'agents de l'Etat pour s'entraider en R et Python

UNECE ML Group

Le travail de recherche du Groupe ML est divisé en 5 groupes de travail visant à traiter différentes problématiques liées à l'utilisation de l'apprentissage automatique pour les statistiques officielles.

grrr

Grrr ("pour quand votre R fait Grrr") est un groupe Slack (plateforme de discussion instantanée) francophone dédié aux échanges et à l’entraide autour de R. Il s'agit du point central de la communauté R francophone. Il est ouvert à tou.te.s et se veut accessible aux débutants. Vous pouvez même utiliser un pseudonyme si vous préférez.

Les derniers billets de blog et événements

Troisième journée du SSPHub

Atelier - Comment récupérer des données sous format Parquet ?

Atelier - Comment récupérer des données par API ?

Deuxième journée du SSPHub

Quarto : Une évolution de R Markdown pour des travaux statistiques reproductibles

Eric Mauvière, “La dataviz pour donner du sens aux données et communiquer un message”

Guide d’utilisation des données du recensement de la population au format Parquet

Onyxia: l’infrastructure cloud mère des dragons

Première journée du SSPHub

“OCRisation, état de l’art et projets auxquels participe Teklia” par Christopher Kermorvant

Présentation du projet Meta Academy - Carpentries

Présentation des packages R et Python pour accéder à l’open data de l’Insee

Polars, une alternative fraîche à Pandas

Présentation de gridviz par Julien Gaffuri

Infolettre n°9

Infolettre n°8

Présentation d’Observable par Nicolas Lambert

Le plongement lexical ou comment apprendre à lire à un ordinateur

Funathon de juin 2022

Funathon de juin 2021

Les projets innovants du SSPHub

Utilisation des images satellites pour la statistique publique

Travaux méthodologiques sur l’enquête Budget de Famille

Codification automatique de l’activité principale des entreprises

Extraction automatique du tableau des filiales et participations des comptes sociaux des entreprises

Codification automatique des professions dans la nomenclature PCS 2020

Comparaison des méthodes d’appariement et apport du machine learning

Classification des données de caisse à partir de machine learning

Les dernières newsletters

La rentrée 2025: actualités, nouveautés, interview de rentrée

Sora, la nouvelle IA d’OpenIA pour générer des vidéos ; Le Chat, le nouveau modèle de Mistral ; Observable, pour s’abstraire des notebooks

Le RAG pour limiter l’hallucination par l’IA ; l’avancée des bases de données vectorielles ; le format Parquet pour simplifier leur usage ; DuckDB débarque en version web

Rétrospective du réseau en 2023 (cocorico, beaucoup de nouveaux inscrits !) ; des nouvelles règles européennes pour l’IA ; le recensement de la population au format parquet ; un explorateur de fichier sur le SSPCloud

Coûts d’entrée trop élevés pour l’entraînement des modèles de langage qui s’orientent vers l’opensource ; LlaMaA et Falcon les nouveaux LLM

Propositions de lecture estivale

Des innovations rapides sur l’IA qui lancent un débat sur sa place dans la société ; algorithme de recommandation de Twitter

Tapis rouge et graph de l’Insee ; questionnement sur l’IA ; faillite dans la Silicon Valley

ChatGPT continue de faire parler ; Arrow et Polars pour le traitement de données tabulaires ; l’API Huggingface accessible depuis un navigateur web

DoReMiFaSol pour récupérer des données de l’Insee ; une masterclass datascientest sur les NLP et l’analyse d’images

Retex sur 2022, première année du réseau des datascientists ; snapshot de l’état du réseau à date ; présentation de Gridviz

L’année 2022 dans le monde de la data science : IA, transformation de RStudio, Observable

Archive des infolettres et lettres Big Data

Les réseaux partenaires

CoP OCDE

Eurostat & les trusted smart statistics (TSS)

L'ENSAE, l'ENSAI et le CREST

La chaire Finance digitale

Lab IA (Etalab) & la DINUM

Onyxia

Spyrales

UNECE ML Group

grrr

Guide d’utilisation des données du recensement de la population au format `Parquet`