Module R’Stat1 : TD01

Novembre 2019 ; IRD-Montpellier-France

CC BY-NC-ND 3.0

TD01_1 : l’âge et le genre à l’IRD ;-)

Objectifs

  • Créer un objet bdd avec 2500 employés et les colonnes :
    • prenoms depuis le fichier “Prenoms.csv” au hasard pondéré par la fréquence
    • noms depuis le fichier “patronymes.csv” au hasard pondéré par la fréquence
    • genre depuis le fichier “Prenoms.csv”
    • dateN une date de naissance entre 1955 et 2002 pour calculer l’âge

https://www.data.gouv.fr/fr/datasets/liste-de-prenoms-et-patronymes/

Méthodes

1- Lister les différentes étapes

2- Se mettre d’accord sur les étapes

3- … et enfin coder en R

Etape 01 : lire les fichiers sources

Etape 01 : lire les fichiers sources

##   X01_prenom X02_genre      X03_langage X04_frequence
## 1    aaliyah         f english (modern)             0
## 2     aapeli         m          finnish             0
## 3       aapo         m          finnish             0
## 4      aaren       m,f          english             0
## 5      aarne         m          finnish             0
## 6      aarón         m          spanish             0
##   patronyme count
## 1    AABACH     2
## 2    AABADI     3
## 3   AABADLI     1
## 4   AABAIDA     1
## 5     AABAL     1
## 6     AABAR     5

Etape 02 : sélectionner les prénoms et genres

Etape 02 : sélectionner les prénoms et genres

##        prenoms genre
## 6776  lucienne     f
## 201         ah     f
## 8522      paul     m
## 8241   olivier     m
## 10293   sylvie     f
## 10279    sybil     f

Etape 03 : sélectionner les noms

Etape 04 : sélectionner une date de naissance

Etape 04 : sélectionner une date de naissance

##    prenoms       noms genre      dateN
## 1 lucienne     SAFFON     f 1986-12-17
## 2       ah   LE BERRE     f 1970-12-12
## 3     paul     THOBOR     m 1975-11-13
## 4  olivier     DAVIDO     m 1993-08-17
## 5   sylvie      LAZAR     f 1988-10-14
## 6    sybil DESOEUVRES     f 1996-03-25

Etape 05 : vérifier la structure des données

## 'data.frame':    2500 obs. of  4 variables:
##  $ prenoms: Factor w/ 11617 levels "aaliyah","aapeli",..: 6774 201 8520 8239 10290 10276 5671 5431 3680 2682 ...
##  $ noms   : Factor w/ 877545 levels " B "," BEHAGUE",..: 725031 487986 800467 219300 487385 250818 170129 285783 96079 212031 ...
##  $ genre  : Factor w/ 4 levels "f","f,m","m",..: 1 1 3 3 1 1 3 1 3 3 ...
##  $ dateN  : Date, format: "1986-12-17" "1970-12-12" ...

Etape 05 : vérifier la structure des données

Etape 05 : vérifier la structure des données

## 'data.frame':    2500 obs. of  4 variables:
##  $ prenoms: Factor w/ 11617 levels "aaliyah","aapeli",..: 6774 201 8520 8239 10290 10276 5671 5431 3680 2682 ...
##  $ noms   : Factor w/ 877545 levels " B "," BEHAGUE",..: 725031 487986 800467 219300 487385 250818 170129 285783 96079 212031 ...
##  $ genre  : Factor w/ 2 levels "f","m": 1 1 2 2 1 1 2 1 2 2 ...
##  $ dateN  : Date, format: "1986-12-17" "1970-12-12" ...

TD01_2 : l’âge et le genre à l’IRD ;-)

Objectifs

  • Avec notre objet bdd :
    • calculer l’âge des employés et faire une colonne age
    • calculer le nombre de départ à la retraite pour les 10 prochaines années (65 ans)
    • faire des représentations graphiques
    • faire la même chose par genre

Etape 06 : calculer l’âge

##    prenoms       noms genre      dateN age
## 1 lucienne     SAFFON     f 1986-12-17  32
## 2       ah   LE BERRE     f 1970-12-12  48
## 3     paul     THOBOR     m 1975-11-13  43
## 4  olivier     DAVIDO     m 1993-08-17  26
## 5   sylvie      LAZAR     f 1988-10-14  30
## 6    sybil DESOEUVRES     f 1996-03-25  23

Etape 07 : départs

## 
##  1  2  3  4  5  6  7  8  9 10 
## 35 45 58 57 54 50 53 49 53 61

Etape 07 : départs

Etape 08 : départs par genre

##     
##       f  m
##   1  12 23
##   2  15 30
##   3  34 24
##   4  28 29
##   5  25 29
##   6  23 27
##   7  29 24
##   8  26 23
##   9  30 23
##   10 36 25

Etape 08 : départs par genre

SUIVANT