Présentation des données

Pour installer les packages nécessaires, vous trouverez les instructions à suivre dans la fiche Ressources / Installer les packages et les outils sur R.

Présentation

Les données utilisées dans la plupart des fiches pratiques sont sont un jeu fictif inspiré du fichier public de l’échantillon annuel de l’Enquête Emploi en Continu mis à disposition par l’Insee sur son site internet.

Le code de construction des données est consultable sur le dépôt github du projet. Ce code intervient de plusieurs façons sur les données publiques:

  • Création de variables pour les besoins des exercices, par exemple:
    • localisation fictive des individus sur trois niveaux géographiques emboîtés (variables ARR, DEP et REG),
    • âge détaillé des individus, construit à partir de la catégorie d’âge connue,
    • recodage des valeurs manquantes (le plus souvent NA devenant 99),
    • sélection d’un sous-échantillon du fichier public,
    • recalage des poids pour permettre l’estimation des taux de chômage etc.

Il est donc important de prendre en considération que le jeu de données utilisé est fictif et les résultats obtenus ne doivent pas être pris autrement que comme les résultats de données quasi-fictives.

Dans ce petit document, sont présentées les variables utilisées dans les différents exercices afin de faciliter la prise en main et la compréhension des choix réalisés.

Import

Code
source("../R/fun_import_data.R")
lfs_2023 <- import_lfs()

Description

Code
str(lfs_2023)
Classes 'data.table' and 'data.frame':  34053 obs. of  16 variables:
 $ REG      : Factor w/ 4 levels "11","28","76",..: 2 2 2 2 1 1 1 1 1 3 ...
 $ DEP      : Factor w/ 28 levels "09","11","12",..: 19 19 19 19 25 25 26 21 21 9 ...
 $ ARR      : Factor w/ 83 levels "091","092","093",..: 53 53 53 53 73 73 75 62 62 27 ...
 $ SEXE     : Factor w/ 2 levels "1","2": 1 2 2 1 1 2 2 1 2 1 ...
 $ AGE      : int  53 43 17 17 42 54 57 20 17 28 ...
 $ AGE6     : Factor w/ 5 levels "15","25","50",..: 3 2 1 1 2 3 3 1 1 2 ...
 $ ACTEU    : Factor w/ 3 levels "1","2","3": 1 1 3 3 1 1 1 3 3 1 ...
 $ DIP7     : Factor w/ 9 levels "1","2","3","4",..: 4 7 5 4 7 7 7 7 7 5 ...
 $ PCS1Q    : Factor w/ 10 levels "0","10","20",..: 4 7 10 10 9 9 7 10 10 8 ...
 $ ANCCHOM  : Factor w/ 10 levels "1","2","3","4",..: 10 10 10 10 10 10 10 10 10 10 ...
 $ HHID     : int  3558 3558 3558 3558 5973 5973 6779 4906 4906 1135 ...
 $ HH_TAILLE: Factor w/ 22 levels "1","2","3","4",..: 4 4 4 4 2 2 1 2 2 3 ...
 $ HH_AGE   : Factor w/ 90 levels "15","16","17",..: 39 39 39 39 40 40 43 6 6 14 ...
 $ HH_DIP   : Factor w/ 9 levels "1","2","3","4",..: 4 4 4 4 7 7 7 7 7 5 ...
 $ HH_PCS   : Factor w/ 10 levels "0","10","20",..: 4 4 4 4 9 9 7 10 10 8 ...
 $ IS_CHOM  : int  0 0 0 0 0 0 0 0 0 0 ...
 - attr(*, ".internal.selfref")=<externalptr> 

Les variables du jeu de données sont les suivantes:

  • REG : Région de résidence (variable fictive)
  • DEP : Département de résidence (variable fictive)
  • ARR : Arrondissement de résidence (variable fictive)
  • SEXE : Sexe de l’individu
  • AGE : Âge détaillé de l’individu (variable reconstruite)
  • AGE6 : Âge en 6 classes (“15”: signifie les ‘les 15-24 ans’, “90”: désigne les ‘90 ans ou plus’)
  • ACTEU : Statut d’activité en 3 catgéories: 1=Actifs en emploi; 2=Actifs au chômage; 3=Inactifs (retraités, étudiants, etc.)
  • DIP7 : Niveau du diplôme le plus élevé en 9 catégories (1: niveau le plus bas, 9: niveau le plus élevé, 99: données manquantes (uniquement pour les 90 ans ou plus)).
  • PCS1Q : Profession ou Catégorie Sociale
  • ANCCHOM : Ancienneté au chômage
  • HHID : Identifiant du ménage
  • HH_TAILLE: Nombre d’individus du ménage
  • HH_AGE : Âge de la personne la plus âgée du ménage
  • HH_DIP : Diplôme de la personne la plus âgée du ménage
  • HH_PCS : Profession ou catégorie sociale de la personne la plus âgée du ménage
  • IS_CHOM. : La personne est au chômage (TRUE/FALSE)