Module R’Stat1 : Les modèles linéaires généralisés (GLM)

Novembre 2019 ; IRD-Montpellier-France

CC BY-NC-ND 3.0

Rappels sur le modèle linéaire

diapo de S. Ballesteros, ENS

x

GLM [glims] (d’après The R Book)

Quand ?

Lorsque la variance n’est pas constante, et/ou que les erreurs ne sont pas distribuées selon une loi Normale.

C’est souvent le cas pour des réponses comme :

  • les proportions
  • les comptages
  • les données binaires (mort ou vivant ; succès ou échec)
  • les temps de survie / demi-vie

Une structure des erreurs

Si les erreurs ne suivaient pas une loi Normale, nous avions recours à une transformation. Avec les GLM nous pouvons spécifier le type de distribution des erreurs :

  • loi Normale (lm classique)
  • loi de Poisson (comptage : y entiers entre 0 et +Inf)
  • loi Binomiale (proportions : y entier entre 0 et n cas, 0:1 ou 0:100)
  • loi Gamma (y continue entre 0 et +Inf)
  • loi Exponentielle (analyse de survie)

Pour spécifier le type de distribution des erreurs, on utilise l’argument family.

La variable explicative peut être quantitative continue (analyse de régression), ou qualitative (catégories / facteurs ; analyse de type ANOVA).

Un prédicteur linéaire

Pour expliquer \(y\), nous utilisons une composante déterministe qui nous permet de voir quels sont les prédicteurs (\(\beta0+\beta_1x_1+...+\beta_px_p\)). Cette combinaison linéaire est appelée prédicteur linéaire et s’exprime avec \(\eta\) (eta) :

\[\eta_i=\sum_{j=1}^{p}x_{ij}\beta_j\]

Fonction de lien

La qualité de l’ajustement des GLM se fait en évaluant le prédicteur linéaire pour chaque valeur de la variable de réponse et le compare à une valeur transformée de y au moyen d’une fonction de lien.

Cette fonction de lien est à définir pour chaque cas (minimiser la déviance résiduelle). Pour une première approche on pourra laisser les fonctions de lein par défaut.

Exemple : données de comptage ~ var qt

Données de comptage

Loi de Poisson de paramètre lambda (\(\lambda\)) :

  • valeurs entre 0 et +Inf
  • \(Pr(Y=y)=\frac{e^{−λ}*\lambda^y}{y!}\)

Hypothèses

  • réponses indépendantes (sinon => Generalized Linear Mixed Models)
  • réponses distribuées selon une loi de Poisson.
  • pas de surdispersion

surdispersion ?

Surdispersion si residual deviance > degrees of freedom

## [1] 0.9754727

Les principales cause des surdispersions sont :

- une corrélation entre les réponses,

- l’absence d’une variable explicative importante,

- un sur-représentation des valeurs zéro par rapport à ce qui est attendue selon la distribution de Poissson de paramètre Lambda.

En cas de surdispersion, il est nécessaire d’utiliser d’autres structures d’erreur, telles que les structures ‘quasi Poisson’ ou ‘négative binomiale’. C. Della Vedova

Ici : absence d’une variable explicative importante

## 
## Call:
## glm(formula = lynx ~ suns, family = "poisson")
## 
## Deviance Residuals: 
##    Min      1Q  Median      3Q     Max  
## -51.14  -37.31  -19.95   22.79  101.57  
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) 7.264e+00  4.016e-03 1808.81   <2e-16 ***
## suns        1.654e-03  7.055e-05   23.44   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 168370  on 113  degrees of freedom
## Residual deviance: 167827  on 112  degrees of freedom
## AIC: 168803
## 
## Number of Fisher Scoring iterations: 5

Hypothèses

Indépendance : oui (sous l’hypothèse que les lynx tués une année n’influencent pas les populations des années suivantes - en tout cas à la fin du XIXème - … )

Hypothèses

Distribution de Poisson :

## [1] 1538.018

Hypothèses