Jocas, webscraping des offres d’emploi en ligne

Le projet Jocas (Job offers collection and analysis system) permet à la DARES (Service statistique ministériel Travail) de collecter automatique des offres d’emploi en ligne pour construire des statistiques sur le marché du travail.
webscrapping
en production
codification automatique
Date de publication

1 janvier 2022

Synthèse du projet

Les offres d’emploi en ligne, nouvelle source de données sur le marché du travail
Détail du projet En quelques années, Internet est devenu une nouvelle source d’information sur le marché du travail. Selon l’enquête Offre d’emploi et recrutement (Ofer) de la Dares, 95 % des annonces d’offres d’emploi ont fait l’objet d’une publication sur Internet en 2016 contre 53 % en 2005. Forte de ce constat, la Dares a décidé de collecter les offres d’emploi en ligne publiées sur une quinzaine de sites pour en faire une nouvelle base de données sur les offres d’emploi : Jocas (Job offers collection and analysis system). Différents outils sont utilisés pour construire cette nouvelle base de données : webscraping, algorithme de classification automatique de texte, déduplication.
Sur l’année 2019, la base Jocas peut être comparée aux sources usuelles de la statistique publique sur l’offre d’emploi, qu’il s’agisse de sources administratives, comme les offres diffusées par Pôle emploi et les Déclarations préalables à l’embauche (DPAE) des Urssaf, ou bien des données issues d’enquête telles que celle sur les Besoins en main-d’œuvre (BMO) de Pôle emploi, l’enquête Emploi de l’Insee, l’enquête Activité et conditions d’emploi de la main-d’œuvre (Acemo) de la Dares. Il en ressort que les métiers sont inégalement couverts par Jocas. Les domaines professionnels avec une forte proportion de cadres ou effectuant beaucoup de recrutements en ligne ont tendance à être surreprésentés. Au contraire, ceux comptabilisant beaucoup de recrutements multiples ou mobilisant des canaux de recrutement informels sont plutôt sous-représentés.
Acteurs DARES
Résultats du projet Les données d’offres en ligne ont notamment été intégrées au calcul des tensions sur le marché du travail. Elles ont également été utilisées pour la production du tableau de suivi de la situation du marché du travail en 2020-2021 lors de la crise du Covid-19. les données Jocas sont en accès libre pour les étudiants, les chercheurs et les agents de la fonction publique. L’accès aux données peut également être accordé pour un usage statistique et non commercial, sur demande auprès de la Dares. La base est notamment accessible sur la plateforme SSPCloud de l’Insee, en suivant le chemin d’accès ‘projet-jocas-prod/diffusion/JOCAS’.

- Description sur le site de la DARES
- Document de travail
- Hackathon en mars 2023 sur le dédoublement des offres d’emploi
- Actualités du projet
- Formation pour utiliser la base JOCAS
Code du projet - Repo GitHub