Code
source("../R/fun_import_data.R")
<- import_lfs() lfs_2023
Pour installer les packages nécessaires, vous trouverez les instructions à suivre dans la fiche Ressources / Installer les packages et les outils sur R.
Les données utilisées dans la plupart des fiches pratiques sont sont un jeu fictif inspiré du fichier public de l’échantillon annuel de l’Enquête Emploi en Continu mis à disposition par l’Insee sur son site internet.
Le code de construction des données est consultable sur le dépôt github du projet. Ce code intervient de plusieurs façons sur les données publiques:
NA
devenant 99
),Il est donc important de prendre en considération que le jeu de données utilisé est fictif et les résultats obtenus ne doivent pas être pris autrement que comme les résultats de données quasi-fictives.
Dans ce petit document, sont présentées les variables utilisées dans les différents exercices afin de faciliter la prise en main et la compréhension des choix réalisés.
Classes 'data.table' and 'data.frame': 34053 obs. of 16 variables:
$ REG : Factor w/ 4 levels "11","28","76",..: 2 2 2 2 1 1 1 1 1 3 ...
$ DEP : Factor w/ 28 levels "09","11","12",..: 19 19 19 19 25 25 26 21 21 9 ...
$ ARR : Factor w/ 83 levels "091","092","093",..: 53 53 53 53 73 73 75 62 62 27 ...
$ SEXE : Factor w/ 2 levels "1","2": 1 2 2 1 1 2 2 1 2 1 ...
$ AGE : int 53 43 17 17 42 54 57 20 17 28 ...
$ AGE6 : Factor w/ 5 levels "15","25","50",..: 3 2 1 1 2 3 3 1 1 2 ...
$ ACTEU : Factor w/ 3 levels "1","2","3": 1 1 3 3 1 1 1 3 3 1 ...
$ DIP7 : Factor w/ 9 levels "1","2","3","4",..: 4 7 5 4 7 7 7 7 7 5 ...
$ PCS1Q : Factor w/ 10 levels "0","10","20",..: 4 7 10 10 9 9 7 10 10 8 ...
$ ANCCHOM : Factor w/ 10 levels "1","2","3","4",..: 10 10 10 10 10 10 10 10 10 10 ...
$ HHID : int 3558 3558 3558 3558 5973 5973 6779 4906 4906 1135 ...
$ HH_TAILLE: Factor w/ 22 levels "1","2","3","4",..: 4 4 4 4 2 2 1 2 2 3 ...
$ HH_AGE : Factor w/ 90 levels "15","16","17",..: 39 39 39 39 40 40 43 6 6 14 ...
$ HH_DIP : Factor w/ 9 levels "1","2","3","4",..: 4 4 4 4 7 7 7 7 7 5 ...
$ HH_PCS : Factor w/ 10 levels "0","10","20",..: 4 4 4 4 9 9 7 10 10 8 ...
$ IS_CHOM : int 0 0 0 0 0 0 0 0 0 0 ...
- attr(*, ".internal.selfref")=<externalptr>
Les variables du jeu de données sont les suivantes:
TRUE
/FALSE
)---
title: Présentation des données
href: pratique/fiches/description-data.html
image: ../../images/description-data.png
---
Pour installer les packages nécessaires, vous trouverez les instructions à suivre
dans la fiche [Ressources / Installer les packages et les outils sur R](../../ressources/fiches/outils-install.html).
```{r}
#| eval: false
#| echo: false
setwd("./pratique/fiches")
```
```{r}
#| echo: false
#| message: false
#| output: false
library(readr)
library(purrr)
library(dplyr)
```
## Présentation
Les données utilisées dans la plupart des fiches pratiques sont sont un jeu fictif inspiré du fichier public de l'échantillon annuel de l'Enquête Emploi en Continu
[mis à disposition par l'Insee sur son site internet](https://www.insee.fr/fr/statistiques/6654604).
Le code de construction des données est consultable sur
[le dépôt github du projet](https://github.com/InseeFrLab/formation_protection_donnees/blob/main/pratique/R/prepa_data.R). Ce code intervient de plusieurs façons sur les données publiques:
- Création de variables pour les besoins des exercices, par exemple:
- localisation fictive des individus sur trois niveaux géographiques emboîtés (variables ARR, DEP et REG),
- âge détaillé des individus, construit à partir de la catégorie d'âge connue,
- recodage des valeurs manquantes (le plus souvent `NA` devenant `99`),
- sélection d'un sous-échantillon du fichier public,
- recalage des poids pour permettre l'estimation des taux de chômage etc.
> Il est donc important de prendre en considération que le jeu de données
utilisé est fictif et les résultats obtenus ne doivent pas être pris autrement
que comme les résultats de données quasi-fictives.
Dans ce petit document, sont présentées les variables utilisées dans les différents exercices afin
de faciliter la prise en main et la compréhension des choix réalisés.
## Import
```{r}
source("../R/fun_import_data.R")
lfs_2023 <- import_lfs()
```
## Description
```{r}
str(lfs_2023)
```
Les variables du jeu de données sont les suivantes:
- REG : Région de résidence (variable fictive)
- DEP : Département de résidence (variable fictive)
- ARR : Arrondissement de résidence (variable fictive)
- SEXE : Sexe de l'individu
- AGE : Âge détaillé de l'individu (variable reconstruite)
- AGE6 : Âge en 6 classes ("15": signifie les 'les 15-24 ans', "90": désigne les '90 ans ou plus')
- ACTEU : Statut d'activité en 3 catgéories: 1=Actifs en emploi; 2=Actifs au chômage; 3=Inactifs (retraités, étudiants, etc.)
- DIP7 : Niveau du diplôme le plus élevé en 9 catégories (1: niveau le plus bas, 9: niveau le plus élevé, 99: données manquantes (uniquement pour les 90 ans ou plus)).
- PCS1Q : Profession ou Catégorie Sociale
- ANCCHOM : Ancienneté au chômage
- HHID : Identifiant du ménage
- HH_TAILLE: Nombre d'individus du ménage
- HH_AGE : Âge de la personne la plus âgée du ménage
- HH_DIP : Diplôme de la personne la plus âgée du ménage
- HH_PCS : Profession ou catégorie sociale de la personne la plus âgée du ménage
- IS_CHOM. : La personne est au chômage (`TRUE`/`FALSE`)
```{r}
#| echo: false
#| output: false
#| message: false
meta_lfs_2023 <- import_meta_lfs()
```
```{r}
#| echo: false
#| message: false
meta_lfs_2023 |>
filter(COD_VAR %in% names(lfs_2023)) |>
select(Variable=COD_VAR, Libellé_Var=LIB_VAR, Modalité=COD_MOD, Libellé_Mod=LIB_MOD) |>
DT::datatable(
caption = "Variables et leurs modalités",
rownames = FALSE
)
```