SSPHub
  • Home
  • Événements
  • Blog
  • Projets
  • Ressources utiles
  • À propos
    • Newsletters
    • Présentation du réseau
    • Manifeste du réseau
  • Le SSPCloud

📺️ Le replay des ateliers du 9 et 16 avril 2025 sont disponibles ici (API) et ici (pour le format Parquet)

// echo: false
// output: false
inscrits = 730
// echo: false
badge = html`<a href="https://grist.numerique.gouv.fr/o/ssphub/forms/jSjAV3L2F8mmiRVuVEpfF7/103"><img alt="Static Badge" src="https://img.shields.io/badge/${inscrits}_inscrits-blue?style=social&label=⭐️%20Rejoindre%20la%20liste%20de%20diffusion&color=8A2BE2&link=https%3A%2F%2Fgrist.numerique.gouv.fr%2Fo%2Fssphub%2Fforms%2FjSjAV3L2F8mmiRVuVEpfF7%2F103">
</a>
`

Le réseau des data scientists de la statistique publique

// echo: false
html`${badge}`

Le SSPHub centralise et vise à faire connaître le contenu créé par le réseau des data scientists du Service Statistique Publique (SSP).

Une présentation du réseau est disponible sur la page à propos. Pour en savoir plus sur les objectifs du réseau, sa philosophie, et ses modes d’actions, vous pouvez découvrir le Manifeste 📜 écrit collectivement.


Les derniers billets de blog et événements

L’ensemble des billets de blog peut être retrouvé sur la page dédiée, tout comme les événements.

Troisième journée du SSPHub

Programme et modalités d’inscription à la 3e journée du réseau

Sep 15, 2025

Atelier - Comment récupérer des données sous format Parquet ?

Le format Parquet est un format de données connaissant une popularité importante du fait de ses caractéristiques techniques (orientation colonne, compression…

Apr 16, 2025

Atelier - Comment récupérer des données par API ?

Les API (Application Programming Interface) sont un mode d’accès aux données en expansion. Grâce aux API, l’automatisation de scripts est facilitée puisqu’il n’est plus…

Apr 9, 2025

Deuxième journée du SSPHub

Programme et modalités d’inscription à la 2e journée du réseau

Oct 14, 2024

Quarto : Une évolution de R Markdown pour des travaux statistiques reproductibles

Pour fiabiliser la production de documents construits en valorisant des données (tableaux, graphiques, etc.), RStudio (devenu Posit depuis) a construit il y a quelques…

May 2, 2024

Eric Mauvière, “La dataviz pour donner du sens aux données et communiquer un message”

Le 29 février (15h - 16h), Eric Mauvière nous fera une présentation, avec de nombreux exemples issus de la statistique publique, de la manière dont une visualisation de…

Feb 29, 2024

Guide d’utilisation des données du recensement de la population au format Parquet

Un post de blog pour accompagner la mise à disposition des données détaillées du recensement au format Parquet.

Oct 23, 2023

Onyxia: l’infrastructure cloud mère des dragons

Les technologies cloud sont incontournables dans l’écosystème de la donnée. Pour ne pas se rendre dépendante de fournisseurs de services externes, l’Insee a développé un…

May 10, 2023

Première journée du SSPHub

Replay de la première journée de présentation du SSPHub

Mar 29, 2023

“OCRisation, état de l’art et projets auxquels participe Teklia” par Christopher Kermorvant

Le 29 mars de 15h à 16h nous recevons Christopher Kermorvant, chercheur spécialisé en OCRisation et fondateur de Teklia. Il nous fera un état de l’art de l’OCRisation puis…

Mar 29, 2023

Présentation du projet Meta Academy - Carpentries

Pour favoriser l’adoption des langages R, Python et Git dans les administrations, le programme ModernStat piloté par l’OCDE et Statistics Canada, a lancé un projet…

Mar 28, 2023

Présentation des packages R et Python pour accéder à l’open data de l’Insee

L’Insee met à disposition ses données par le biais d’API ou par son site web. Pour faciliter la…

Feb 13, 2023

Polars, une alternative fraîche à Pandas

Polars, une alternative moderne et fluide à Pandas

Feb 10, 2023

Présentation de gridviz par Julien Gaffuri

Evénement de présentation de gridviz par Julien Gaffuri (Eurostat)

Jan 20, 2023

Infolettre n°9

Après la rétrospective de l’année 2022 de la data science, il est temps de se pencher sur l’année du réseau avec des visualisations interactives produites grâce à…

Jan 10, 2023

Infolettre n°8

La data science a beaucoup fait parler d’elle en 2022, notamment du fait des deux coups médiatiques d’openAI, à savoir…

Dec 31, 2022

Présentation d’Observable par Nicolas Lambert

observable est la nouvelle plateforme de dataviz réactive. Initiée par Mike Bostock (créateur de D3.js), ce réseau social de la dataviz a pour…

Nov 16, 2022

Le plongement lexical ou comment apprendre à lire à un ordinateur

Introduction aux méthodes de traitement du langage naturel.

Oct 3, 2022

Funathon de juin 2022

Présentation du deuxième Funathon du SSPLab organisé le 20 juin 2022 autour de 9 sujets, en R et en Python.

Jun 19, 2022

Funathon de juin 2021

Présentation du premier Funathon du SSPLab organisé le 21 juin 2021 autour de 8 sujets, en R et en Python, à partir de données Airbnb

Jun 20, 2021
No matching items

    Les projets innovants du SSPHub

    L’ensemble des projets innovants peut être retrouvé sur la page dédiée.

    Utilisation des images satellites pour la statistique publique

    Utiliser les images satellites pour améliorer le recensement de la population dans les territoire ultra-marins

    Oct 1, 2022

    Travaux méthodologiques sur l’enquête Budget de Famille

    Modernisation de l’enquête budget des familles par utilisation d’outils de classification automatique

    Jan 1, 2022

    Codification automatique de l’activité principale des entreprises

    Développer un algorithme de machine learning pour automatiser la classification de l’activité principale des entreprises et mise en production

    Jan 1, 2022

    Extraction automatique du tableau des filiales et participations des comptes sociaux des entreprises

    Extraire les informations de tableaux de comptes sociaux, en particulier des tableaux des filiales et participations, contenus dans des images scannées mises à disposition…

    Jan 1, 2021

    Codification automatique des professions dans la nomenclature PCS 2020

    Codifier automatiquement les professions dans le cadre de la bascule vers la nouvelle nomenclature PCS (PCS 2020)

    Jan 1, 2021

    Comparaison des méthodes d’appariement et apport du machine learning

    Tester et comparer différentes méthodes d’appariements afin de dégager des recommandations pour les travaux nécessaires à la construction des répertoires, notamment dans le…

    Jan 1, 2021

    Classification des données de caisse à partir de machine learning

    Classifier des données de caisse dans la nomenclature COICOP par machine learning pour le calcul de l’IPC

    Jan 1, 2020
    No matching items

    Les dernières newsletters

    Toutes les newsletters précédemment publiées sont disponibles sur la page dédiée.

    La rentrée 2025: actualités, nouveautés, interview de rentrée

    Infolettre du mois de Septembre 2025

    Sep 29, 2025

    Sora, la nouvelle IA d’OpenIA pour générer des vidéos ; Le Chat, le nouveau modèle de Mistral ; Observable, pour s’abstraire des notebooks

    Infolettre du mois de Mars 2024

    Mar 7, 2024

    Le RAG pour limiter l’hallucination par l’IA ; l’avancée des bases de données vectorielles ; le format Parquet pour simplifier leur usage ; DuckDB débarque en version web

    Infolettre du mois de Février 2024

    Jan 20, 2024

    Rétrospective du réseau en 2023 (cocorico, beaucoup de nouveaux inscrits !) ; des nouvelles règles européennes pour l’IA ; le recensement de la population au format parquet ; un explorateur de fichier sur le SSPCloud

    Infolettre du mois de Décembre 2023

    Dec 21, 2023

    Coûts d’entrée trop élevés pour l’entraînement des modèles de langage qui s’orientent vers l’opensource ; LlaMaA et Falcon les nouveaux LLM

    Infolettre de rentrée, Septembre 2023

    Sep 10, 2023

    Propositions de lecture estivale

    Infolettre estivale, Juillet 2023

    Jul 1, 2023

    Des innovations rapides sur l’IA qui lancent un débat sur sa place dans la société ; algorithme de recommandation de Twitter

    Infolettre du mois d’Avril 2023

    Apr 1, 2023

    Tapis rouge et graph de l’Insee ; questionnement sur l’IA ; faillite dans la Silicon Valley

    Infolettre du mois de Mars 2023, deuxième quinzaine

    Mar 15, 2023

    ChatGPT continue de faire parler ; Arrow et Polars pour le traitement de données tabulaires ; l’API Huggingface accessible depuis un navigateur web

    Infolettre du mois de Mars 2023

    Mar 1, 2023

    DoReMiFaSol pour récupérer des données de l’Insee ; une masterclass datascientest sur les NLP et l’analyse d’images

    Infolettre du mois de Février 2023

    Jan 30, 2023

    Retex sur 2022, première année du réseau des datascientists ; snapshot de l’état du réseau à date ; présentation de Gridviz

    Infolettre du mois de Janvier 2023

    Jan 10, 2023

    L’année 2022 dans le monde de la data science : IA, transformation de RStudio, Observable

    Infolettre du mois de Décembre 2022

    Dec 31, 2022

    Archive des infolettres et lettres Big Data

    Les infolettres et lettres Big Data antérieures 👵👴, avant la publication sous forme de blog

    Aug 31, 2022
    No matching items

      Les réseaux partenaires

      Quelques communautés de la data-science avec lesquels nous collaborons

      CoP OCDE
      Le groupe Community of Practice de l'OCDE est un réseau informel organisé autour des sujets d'innovation statistique.

      Eurostat & les trusted smart statistics (TSS)
      Eurostat encadre les réseaux des instituts nationaux de statistiques et les travaux européens autour de l'exploration de nouvelles sources de données et des nouveaux outils de datascience pour la statistique officielle

      L'ENSAE, l'ENSAI et le CREST
      L'ENSAE, l'ENSAI sont des écoles d'ingénieur en statistiques, science des données et analyse économique. Le CREST est un centre rassemblant des enseignants-chercheurs d’économie de l’École polytechnique et du CNRS

      La chaire Finance digitale
      L’objectif de la chaire est de conduire des travaux de recherche sur l’ensemble des innovations, de services, de produits ou d’organisations en lien avec le numérique, susceptibles de modifier le métier de l’intermédiaire financier. Elle est le fruit d'un partenariat entre Télécom Paris, l’université Paris II Panthéon-Assas, l’Institut Louis Bachelier, le Groupement des Cartes Bancaires (CB), la Caisse des Dépôts et l'Insee.

      Lab IA (Etalab) & la DINUM
      La communauté des data scientists et acteurs de l’IA pour l’administration française et plus généralement la DINUM

      Onyxia
      La communauté Onyxia, à l'origine du SSPCloud, a pour objectif de fournir une plateforme flexible pour expérimenter les outils modernes de la data-science.

      Spyrales
      Une communauté d'agents de l'Etat pour s'entraider en R et Python

      UNECE ML Group
      Le travail de recherche du Groupe ML est divisé en 5 groupes de travail visant à traiter différentes problématiques liées à l'utilisation de l'apprentissage automatique pour les statistiques officielles.

      grrr
      Grrr ("pour quand votre R fait Grrr") est un groupe Slack (plateforme de discussion instantanée) francophone dédié aux échanges et à l’entraide autour de R. Il s'agit du point central de la communauté R francophone. Il est ouvert à tou.te.s et se veut accessible aux débutants. Vous pouvez même utiliser un pseudonyme si vous préférez.
      No matching items