Module R’Stat1 : Les modèles linéaires généralisés (GLM)

Rappels sur le modèle linéaire

GLM `[glims]` (d’après The R Book)

Quand ?

Lorsque la variance n’est pas constante, et/ou que les erreurs ne sont pas distribuées selon une loi Normale.

C’est souvent le cas pour des réponses comme :

les proportions
les comptages
les données binaires (mort ou vivant ; succès ou échec)
les temps de survie / demi-vie

Une structure des erreurs

Si les erreurs ne suivaient pas une loi Normale, nous avions recours à une transformation. Avec les GLM nous pouvons spécifier le type de distribution des erreurs :

loi Normale (lm classique)
loi de Poisson (comptage : y entiers entre 0 et +Inf)
loi Binomiale (proportions : y entier entre 0 et n cas, 0:1 ou 0:100)
loi Gamma (y continue entre 0 et +Inf)
loi Exponentielle (analyse de survie)

Pour spécifier le type de distribution des erreurs, on utilise l’argument family.

glm(y ~ z, family = poisson)

La variable explicative peut être quantitative continue (analyse de régression), ou qualitative (catégories / facteurs ; analyse de type ANOVA).

Un prédicteur linéaire

Pour expliquer \(y\), nous utilisons une composante déterministe qui nous permet de voir quels sont les prédicteurs (\(\beta0+\beta_1x_1+...+\beta_px_p\)). Cette combinaison linéaire est appelée prédicteur linéaire et s’exprime avec \(\eta\) (eta) :

\[\eta_i=\sum_{j=1}^{p}x_{ij}\beta_j\]

Fonction de lien

La qualité de l’ajustement des GLM se fait en évaluant le prédicteur linéaire pour chaque valeur de la variable de réponse et le compare à une valeur transformée de y au moyen d’une fonction de lien.

Cette fonction de lien est à définir pour chaque cas (minimiser la déviance résiduelle). Pour une première approche on pourra laisser les fonctions de lein par défaut.

Exemple : données de comptage ~ var qt

Données de comptage

Loi de Poisson de paramètre lambda (\(\lambda\)) :

valeurs entre 0 et +Inf
\(Pr(Y=y)=\frac{e^{−λ}*\lambda^y}{y!}\)

library("palettesForR")
par(mfrow = c(2, 2))
trash <- sapply(c(1, 2, 5, 10), function(i){
  hist(rpois(n = 1000, lambda = i), breaks = 0:30, 
    main = paste0("Poisson (\u03BB=", i, ")"), 
    col = Dark_gpl)
})

Hypothèses

réponses indépendantes (sinon => Generalized Linear Mixed Models)
réponses distribuées selon une loi de Poisson.
pas de surdispersion

surdispersion ?

Surdispersion si residual deviance > degrees of freedom

y <- rpois(n = 1000, lambda = 5)
x <- 1:1000
modSum <- summary(glm(y ~ x, family = "poisson"))
phiEst <- modSum$null.deviance / modSum$df[2]
print(phiEst) # > 1 ?

## [1] 0.9754727

Les principales cause des surdispersions sont :

- une corrélation entre les réponses,

- l’absence d’une variable explicative importante,

- un sur-représentation des valeurs zéro par rapport à ce qui est attendue selon la distribution de Poissson de paramètre Lambda.

En cas de surdispersion, il est nécessaire d’utiliser d’autres structures d’erreur, telles que les structures ‘quasi Poisson’ ou ‘négative binomiale’. C. Della Vedova

Ici : absence d’une variable explicative importante

# comptage de lynx en fonction des tâches solaires
suns <- as.vector(ts.intersect(lynx, sunspot.year)[,"sunspot.year"])
lynx <- as.vector(ts.intersect(lynx, sunspot.year)[,"lynx"])
modSum <- summary(glm(lynx ~ suns, family = "poisson"))
print(modSum)

## 
## Call:
## glm(formula = lynx ~ suns, family = "poisson")
## 
## Deviance Residuals: 
##    Min      1Q  Median      3Q     Max  
## -51.14  -37.31  -19.95   22.79  101.57  
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) 7.264e+00  4.016e-03 1808.81   <2e-16 ***
## suns        1.654e-03  7.055e-05   23.44   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 168370  on 113  degrees of freedom
## Residual deviance: 167827  on 112  degrees of freedom
## AIC: 168803
## 
## Number of Fisher Scoring iterations: 5

Hypothèses

Indépendance : oui (sous l’hypothèse que les lynx tués une année n’influencent pas les populations des années suivantes - en tout cas à la fin du XIXème - … )

Hypothèses

Distribution de Poisson :

mean(lynx)

## [1] 1538.018

distrTheo <- rpois(length(lynx), lambda = mean(lynx))

Hypothèses

hist(lynx)
hist(distrTheo, col = 2, add = TRUE)

Hypothèses

Distribution de Poisson : non

Hypothèses

Sudispersion : oui

phiEst <- modSum$null.deviance / modSum$df[2]
print(phiEst) # > 1 ?

## [1] 1503.3

# très forte surdispersion : on change de structure d'erreur

Structure quasipoisson (surdispersion)

modSum <- summary(glm(lynx ~ suns, family = "quasipoisson"))
print(modSum)

## 
## Call:
## glm(formula = lynx ~ suns, family = "quasipoisson")
## 
## Deviance Residuals: 
##    Min      1Q  Median      3Q     Max  
## -51.14  -37.31  -19.95   22.79  101.57  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 7.264107   0.163136  44.528   <2e-16 ***
## suns        0.001654   0.002866   0.577    0.565    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for quasipoisson family taken to be 1650.133)
## 
##     Null deviance: 168370  on 113  degrees of freedom
## Residual deviance: 167827  on 112  degrees of freedom
## AIC: NA
## 
## Number of Fisher Scoring iterations: 5

Exemple : données de comptage ~ var ql

Données de comptage (dataset depuis Kaggle)

Nombre de feux au Brésil par état

feux <- read.table("./DATA/amazon.csv", 
  header = TRUE, sep = ",")
feux$number <- as.integer(feux$number)
library("palettesForR")

par(mar = c(8, 2, 1, 1))
boxplot(feux$number ~ feux$state, 
  las = 3, xlab = "", col = Tango_gpl)

tapply(feux$number, INDEX = feux$state, FUN = sum)

##             Acre          Alagoas            Amapa         Amazonas 
##            18452             4644            21831            30636 
##            Bahia            Ceara Distrito Federal   Espirito Santo 
##            44718            30415             3561             6546 
##            Goias         Maranhao      Mato Grosso     Minas Gerais 
##            37677            25082            96178            37453 
##             Pará          Paraiba       Pernambuco             Piau 
##            24459            52432            24498            37777 
##              Rio         Rondonia          Roraima   Santa Catarina 
##            45160            20259            24384            24359 
##        Sao Paulo          Sergipe        Tocantins 
##            51118             3237            33675

feux$state <- factor(
  feux$state, 
  levels(feux$state)[order(
    tapply(feux$number, INDEX = feux$state, FUN = sum))
  ])

par(mar = c(8, 2, 1, 1))
boxplot(feux$number ~ feux$state, 
  las = 3, xlab = "", col = Tango_gpl)

tapply(feux$number, INDEX = feux$state, FUN = summary)

## $Sergipe
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00    3.00   13.54   18.00  198.00 
## 
## $`Distrito Federal`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     0.0     2.0    14.9    17.5   196.0 
## 
## $Alagoas
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    1.00   10.00   19.35   29.00  162.00 
## 
## $`Espirito Santo`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    4.50   13.00   27.39   36.00  307.00 
## 
## $Acre
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     0.0     2.0    77.2    35.0   960.0 
## 
## $Rondonia
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    3.00   11.00   84.77   72.50  969.00 
## 
## $Amapa
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00    2.00   91.34   70.00  969.00 
## 
## $`Santa Catarina`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0    14.0    34.0   101.9    79.0   765.0 
## 
## $Roraima
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0       4      35     102     137     820 
## 
## $Pará
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     4.0    10.0   102.3    63.5   982.0 
## 
## $Pernambuco
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     5.0    27.0   102.5   158.5   859.0 
## 
## $Maranhao
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     2.0     8.0   104.9    93.5   972.0 
## 
## $Ceara
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     2.0    16.0   127.3   143.5   995.0 
## 
## $Amazonas
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     4.0    23.0   128.2   128.0   998.0 
## 
## $Tocantins
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     3.0    29.0   140.9   146.5   989.0 
## 
## $`Minas Gerais`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0    16.0    81.0   156.7   179.5   959.0 
## 
## $Goias
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0    12.5    60.0   157.6   187.5   943.0 
## 
## $Piau
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     3.0    35.0   158.1   200.5   943.0 
## 
## $Bahia
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     8.0   140.0   187.1   259.0   995.0 
## 
## $Rio
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    6.00   24.00   62.98   70.00  885.00 
## 
## $`Sao Paulo`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0    52.0   104.0   213.9   290.0   981.0 
## 
## $Paraiba
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0     6.0    46.0   109.7   125.0   987.0 
## 
## $`Mato Grosso`
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    5.25  100.00  201.21  305.50  979.00

modL <- glm(feux$number ~ feux$state, family = "poisson")
print(modL)

## 
## Call:  glm(formula = feux$number ~ feux$state, family = "poisson")
## 
## Coefficients:
##                (Intercept)  feux$stateDistrito Federal  
##                    2.60594                     0.09539  
##          feux$stateAlagoas    feux$stateEspirito Santo  
##                    0.35675                     0.70421  
##             feux$stateAcre          feux$stateRondonia  
##                    1.74053                     1.83395  
##            feux$stateAmapa    feux$stateSanta Catarina  
##                    1.90868                     2.01825  
##          feux$stateRoraima              feux$statePará  
##                    2.01928                     2.02235  
##       feux$statePernambuco          feux$stateMaranhao  
##                    2.02394                     2.04750  
##            feux$stateCeara          feux$stateAmazonas  
##                    2.24029                     2.24753  
##        feux$stateTocantins      feux$stateMinas Gerais  
##                    2.34211                     2.44844  
##            feux$stateGoias              feux$statePiau  
##                    2.45440                     2.45705  
##            feux$stateBahia               feux$stateRio  
##                    2.62573                     1.53695  
##        feux$stateSao Paulo           feux$stateParaiba  
##                    2.75949                     2.09172  
##      feux$stateMato Grosso  
##                    2.69841  
## 
## Degrees of Freedom: 6453 Total (i.e. Null);  6431 Residual
## Null Deviance:       1464000 
## Residual Deviance: 1255000   AIC: 1285000

Hypothèses

Indépendance : ok?
Distrib. poisson ? surdispersion ?

summary(modL)

## 
## Call:
## glm(formula = feux$number ~ feux$state, family = "poisson")
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -20.682  -12.572   -6.331    1.396   55.441  
## 
## Coefficients:
##                            Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                 2.60594    0.01758 148.264  < 2e-16 ***
## feux$stateDistrito Federal  0.09539    0.02428   3.928 8.56e-05 ***
## feux$stateAlagoas           0.35675    0.02290  15.581  < 2e-16 ***
## feux$stateEspirito Santo    0.70421    0.02149  32.774  < 2e-16 ***
## feux$stateAcre              1.74053    0.01906  91.341  < 2e-16 ***
## feux$stateRondonia          1.83395    0.01893  96.889  < 2e-16 ***
## feux$stateAmapa             1.90868    0.01883 101.341  < 2e-16 ***
## feux$stateSanta Catarina    2.01825    0.01871 107.883  < 2e-16 ***
## feux$stateRoraima           2.01928    0.01871 107.945  < 2e-16 ***
## feux$statePará              2.02235    0.01870 108.128  < 2e-16 ***
## feux$statePernambuco        2.02394    0.01870 108.223  < 2e-16 ***
## feux$stateMaranhao          2.04750    0.01868 109.632  < 2e-16 ***
## feux$stateCeara             2.24029    0.01849 121.175  < 2e-16 ***
## feux$stateAmazonas          2.24753    0.01848 121.609  < 2e-16 ***
## feux$stateTocantins         2.34211    0.01840 127.277  < 2e-16 ***
## feux$stateMinas Gerais      2.44844    0.01832 133.647  < 2e-16 ***
## feux$stateGoias             2.45440    0.01832 134.005  < 2e-16 ***
## feux$statePiau              2.45705    0.01831 134.163  < 2e-16 ***
## feux$stateBahia             2.62573    0.01820 144.260  < 2e-16 ***
## feux$stateRio               1.53695    0.01820  84.469  < 2e-16 ***
## feux$stateSao Paulo         2.75949    0.01812 152.254  < 2e-16 ***
## feux$stateParaiba           2.09172    0.01811 115.496  < 2e-16 ***
## feux$stateMato Grosso       2.69841    0.01787 151.005  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 1463651  on 6453  degrees of freedom
## Residual deviance: 1254755  on 6431  degrees of freedom
## AIC: 1285112
## 
## Number of Fisher Scoring iterations: 6

Le ratio residual deviance / ddl est égal à 1254755 / 6431 = 195. Beaucoup de surdispersion ! Il est nécessaire d’utiliser une autre structure d’erreur.

modL <- glm(feux$number ~ feux$state, family = "quasipoisson")
summary(modL)

## 
## Call:
## glm(formula = feux$number ~ feux$state, family = "quasipoisson")
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -20.682  -12.572   -6.331    1.396   55.441  
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 2.60594    0.29133   8.945  < 2e-16 ***
## feux$stateDistrito Federal  0.09539    0.40251   0.237    0.813    
## feux$stateAlagoas           0.35675    0.37951   0.940    0.347    
## feux$stateEspirito Santo    0.70421    0.35614   1.977    0.048 *  
## feux$stateAcre              1.74053    0.31584   5.511 3.71e-08 ***
## feux$stateRondonia          1.83395    0.31374   5.846 5.30e-09 ***
## feux$stateAmapa             1.90868    0.31218   6.114 1.03e-09 ***
## feux$stateSanta Catarina    2.01825    0.31008   6.509 8.14e-11 ***
## feux$stateRoraima           2.01928    0.31006   6.513 7.95e-11 ***
## feux$statePará              2.02235    0.31000   6.524 7.38e-11 ***
## feux$statePernambuco        2.02394    0.30997   6.529 7.11e-11 ***
## feux$stateMaranhao          2.04750    0.30955   6.614 4.03e-11 ***
## feux$stateCeara             2.24029    0.30644   7.311 2.98e-13 ***
## feux$stateAmazonas          2.24753    0.30633   7.337 2.45e-13 ***
## feux$stateTocantins         2.34211    0.30501   7.679 1.84e-14 ***
## feux$stateMinas Gerais      2.44844    0.30365   8.063 8.79e-16 ***
## feux$stateGoias             2.45440    0.30358   8.085 7.38e-16 ***
## feux$statePiau              2.45705    0.30355   8.094 6.83e-16 ***
## feux$stateBahia             2.62573    0.30168   8.704  < 2e-16 ***
## feux$stateRio               1.53695    0.30159   5.096 3.56e-07 ***
## feux$stateSao Paulo         2.75949    0.30041   9.186  < 2e-16 ***
## feux$stateParaiba           2.09172    0.30018   6.968 3.53e-12 ***
## feux$stateMato Grosso       2.69841    0.29619   9.110  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for quasipoisson family taken to be 274.7254)
## 
##     Null deviance: 1463651  on 6453  degrees of freedom
## Residual deviance: 1254755  on 6431  degrees of freedom
## AIC: NA
## 
## Number of Fisher Scoring iterations: 6

Interprétation

Table de variance (cas surdispersion avec Fisher) :

library("car")

## Warning: package 'car' was built under R version 3.6.1

## Loading required package: carData

Anova(modL, test.statistic = "F")

## Analysis of Deviance Table (Type II tests)
## 
## Response: feux$number
## Error estimate based on Pearson residuals 
## 
##             Sum Sq   Df F value    Pr(>F)    
## feux$state  208896   22  34.564 < 2.2e-16 ***
## Residuals  1766701 6431                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Comp. multiples

library(multcomp)
modL <- glm(number ~ state, family = "quasipoisson", data = feux)
tuk <- glht(modL, linfct = mcp(state = "Tukey"))
summary(tuk)

## 
##   Simultaneous Tests for General Linear Hypotheses
## 
## Multiple Comparisons of Means: Tukey Contrasts
## 
## 
## Fit: glm(formula = number ~ state, family = "quasipoisson", data = feux)
## 
## Linear Hypotheses:
##                                         Estimate Std. Error z value
## Distrito Federal - Sergipe == 0         0.095394   0.402514   0.237
## Alagoas - Sergipe == 0                  0.356754   0.379509   0.940
## Espirito Santo - Sergipe == 0           0.704207   0.356144   1.977
## Acre - Sergipe == 0                     1.740526   0.315837   5.511
## Rondonia - Sergipe == 0                 1.833952   0.313737   5.846
## Amapa - Sergipe == 0                    1.908684   0.312175   6.114
## Santa Catarina - Sergipe == 0           2.018254   0.310078   6.509
## Roraima - Sergipe == 0                  2.019280   0.310060   6.513
## Pará - Sergipe == 0                     2.022351   0.310003   6.524
## Pernambuco - Sergipe == 0               2.023945   0.309975   6.529
## Maranhao - Sergipe == 0                 2.047503   0.309553   6.614
## Ceara - Sergipe == 0                    2.240289   0.306436   7.311
## Amazonas - Sergipe == 0                 2.247529   0.306329   7.337
## Tocantins - Sergipe == 0                2.342109   0.305006   7.679
## Minas Gerais - Sergipe == 0             2.448440   0.303654   8.063
## Goias - Sergipe == 0                    2.454403   0.303582   8.085
## Piau - Sergipe == 0                     2.457053   0.303550   8.094
## Bahia - Sergipe == 0                    2.625729   0.301685   8.704
## Rio - Sergipe == 0                      1.536952   0.301585   5.096
## Sao Paulo - Sergipe == 0                2.759490   0.300407   9.186
## Paraiba - Sergipe == 0                  2.091723   0.300183   6.968
## Mato Grosso - Sergipe == 0              2.698406   0.296187   9.110
## Alagoas - Distrito Federal == 0         0.261359   0.369194   0.708
## Espirito Santo - Distrito Federal == 0  0.608813   0.345131   1.764
## Acre - Distrito Federal == 0            1.645131   0.303364   5.423
## Rondonia - Distrito Federal == 0        1.738558   0.301177   5.773
## Amapa - Distrito Federal == 0           1.813290   0.299550   6.053
## Santa Catarina - Distrito Federal == 0  1.922860   0.297364   6.466
## Roraima - Distrito Federal == 0         1.923886   0.297345   6.470
## Pará - Distrito Federal == 0            1.926957   0.297286   6.482
## Pernambuco - Distrito Federal == 0      1.928550   0.297256   6.488
## Maranhao - Distrito Federal == 0        1.952109   0.296817   6.577
## Ceara - Distrito Federal == 0           2.144895   0.293564   7.306
## Amazonas - Distrito Federal == 0        2.152134   0.293453   7.334
## Tocantins - Distrito Federal == 0       2.246714   0.292071   7.692
## Minas Gerais - Distrito Federal == 0    2.353045   0.290659   8.096
## Goias - Distrito Federal == 0           2.359008   0.290584   8.118
## Piau - Distrito Federal == 0            2.361659   0.290550   8.128
## Bahia - Distrito Federal == 0           2.530335   0.288601   8.768
## Rio - Distrito Federal == 0             1.441558   0.288497   4.997
## Sao Paulo - Distrito Federal == 0       2.664095   0.287266   9.274
## Paraiba - Distrito Federal == 0         1.996329   0.287031   6.955
## Mato Grosso - Distrito Federal == 0     2.603012   0.282849   9.203
## Espirito Santo - Alagoas == 0           0.347453   0.318002   1.093
## Acre - Alagoas == 0                     1.383772   0.272103   5.085
## Rondonia - Alagoas == 0                 1.477198   0.269662   5.478
## Amapa - Alagoas == 0                    1.551930   0.267843   5.794
## Santa Catarina - Alagoas == 0           1.661501   0.265396   6.260
## Roraima - Alagoas == 0                  1.662526   0.265375   6.265
## Pará - Alagoas == 0                     1.665598   0.265309   6.278
## Pernambuco - Alagoas == 0               1.667191   0.265276   6.285
## Maranhao - Alagoas == 0                 1.690750   0.264783   6.385
## Ceara - Alagoas == 0                    1.883535   0.261131   7.213
## Amazonas - Alagoas == 0                 1.890775   0.261007   7.244
## Tocantins - Alagoas == 0                1.985355   0.259452   7.652
## Minas Gerais - Alagoas == 0             2.091686   0.257861   8.112
## Goias - Alagoas == 0                    2.097649   0.257776   8.137
## Piau - Alagoas == 0                     2.100300   0.257739   8.149
## Bahia - Alagoas == 0                    2.268975   0.255540   8.879
## Rio - Alagoas == 0                      1.180199   0.255422   4.621
## Sao Paulo - Alagoas == 0                2.402736   0.254030   9.458
## Paraiba - Alagoas == 0                  1.734969   0.253765   6.837
## Mato Grosso - Alagoas == 0              2.341653   0.249025   9.403
## Acre - Espirito Santo == 0              1.036319   0.238435   4.346
## Rondonia - Espirito Santo == 0          1.129745   0.235645   4.794
## Amapa - Espirito Santo == 0             1.204477   0.233562   5.157
## Santa Catarina - Espirito Santo == 0    1.314047   0.230752   5.695
## Roraima - Espirito Santo == 0           1.315073   0.230727   5.700
## Pará - Espirito Santo == 0              1.318144   0.230652   5.715
## Pernambuco - Espirito Santo == 0        1.319737   0.230614   5.723
## Maranhao - Espirito Santo == 0          1.343296   0.230046   5.839
## Ceara - Espirito Santo == 0             1.536082   0.225834   6.802
## Amazonas - Espirito Santo == 0          1.543322   0.225690   6.838
## Tocantins - Espirito Santo == 0         1.637902   0.223890   7.316
## Minas Gerais - Espirito Santo == 0      1.744233   0.222044   7.855
## Goias - Espirito Santo == 0             1.750196   0.221946   7.886
## Piau - Espirito Santo == 0              1.752846   0.221903   7.899
## Bahia - Espirito Santo == 0             1.921522   0.219344   8.760
## Rio - Espirito Santo == 0               0.832745   0.219207   3.799
## Sao Paulo - Espirito Santo == 0         2.055283   0.217584   9.446
## Paraiba - Espirito Santo == 0           1.387516   0.217274   6.386
## Mato Grosso - Espirito Santo == 0       1.994199   0.211719   9.419
## Rondonia - Acre == 0                    0.093426   0.168651   0.554
## Amapa - Acre == 0                       0.168158   0.165728   1.015
## Santa Catarina - Acre == 0              0.277729   0.161744   1.717
## Roraima - Acre == 0                     0.278754   0.161708   1.724
## Pará - Acre == 0                        0.281825   0.161600   1.744
## Pernambuco - Acre == 0                  0.283419   0.161546   1.754
## Maranhao - Acre == 0                    0.306978   0.160735   1.910
## Ceara - Acre == 0                       0.499763   0.154646   3.232
## Amazonas - Acre == 0                    0.507003   0.154435   3.283
## Tocantins - Acre == 0                   0.601583   0.151792   3.963
## Minas Gerais - Acre == 0                0.707914   0.149057   4.749
## Goias - Acre == 0                       0.713877   0.148911   4.794
## Piau - Acre == 0                        0.716528   0.148846   4.814
## Bahia - Acre == 0                       0.885203   0.145004   6.105
## Rio - Acre == 0                        -0.203573   0.144797  -1.406
## Sao Paulo - Acre == 0                   1.018964   0.142328   7.159
## Paraiba - Acre == 0                     0.351197   0.141854   2.476
## Mato Grosso - Acre == 0                 0.957881   0.133189   7.192
## Amapa - Rondonia == 0                   0.074732   0.161689   0.462
## Santa Catarina - Rondonia == 0          0.184302   0.157602   1.169
## Roraima - Rondonia == 0                 0.185328   0.157566   1.176
## Pará - Rondonia == 0                    0.188399   0.157455   1.197
## Pernambuco - Rondonia == 0              0.189992   0.157399   1.207
## Maranhao - Rondonia == 0                0.213551   0.156567   1.364
## Ceara - Rondonia == 0                   0.406337   0.150309   2.703
## Amazonas - Rondonia == 0                0.413577   0.150092   2.755
## Tocantins - Rondonia == 0               0.508157   0.147372   3.448
## Minas Gerais - Rondonia == 0            0.614488   0.144553   4.251
## Goias - Rondonia == 0                   0.620451   0.144402   4.297
## Piau - Rondonia == 0                    0.623101   0.144335   4.317
## Bahia - Rondonia == 0                   0.791777   0.140370   5.641
## Rio - Rondonia == 0                    -0.297000   0.140156  -2.119
## Sao Paulo - Rondonia == 0               0.925538   0.137603   6.726
## Paraiba - Rondonia == 0                 0.257771   0.137113   1.880
## Mato Grosso - Rondonia == 0             0.864454   0.128128   6.747
## Santa Catarina - Amapa == 0             0.109570   0.154471   0.709
## Roraima - Amapa == 0                    0.110596   0.154433   0.716
## Pará - Amapa == 0                       0.113667   0.154320   0.737
## Pernambuco - Amapa == 0                 0.115260   0.154263   0.747
## Maranhao - Amapa == 0                   0.138819   0.153414   0.905
## Ceara - Amapa == 0                      0.331605   0.147022   2.255
## Amazonas - Amapa == 0                   0.338845   0.146800   2.308
## Tocantins - Amapa == 0                  0.433425   0.144018   3.010
## Minas Gerais - Amapa == 0               0.539756   0.141132   3.824
## Goias - Amapa == 0                      0.545719   0.140977   3.871
## Piau - Amapa == 0                       0.548369   0.140909   3.892
## Bahia - Amapa == 0                      0.717045   0.136845   5.240
## Rio - Amapa == 0                       -0.371732   0.136625  -2.721
## Sao Paulo - Amapa == 0                  0.850806   0.134005   6.349
## Paraiba - Amapa == 0                    0.183039   0.133501   1.371
## Mato Grosso - Amapa == 0                0.789722   0.124255   6.356
## Roraima - Santa Catarina == 0           0.001026   0.150149   0.007
## Pará - Santa Catarina == 0              0.004097   0.150033   0.027
## Pernambuco - Santa Catarina == 0        0.005690   0.149975   0.038
## Maranhao - Santa Catarina == 0          0.029249   0.149101   0.196
## Ceara - Santa Catarina == 0             0.222035   0.142516   1.558
## Amazonas - Santa Catarina == 0          0.229274   0.142287   1.611
## Tocantins - Santa Catarina == 0         0.323854   0.139414   2.323
## Minas Gerais - Santa Catarina == 0      0.430185   0.136431   3.153
## Goias - Santa Catarina == 0             0.436148   0.136271   3.201
## Piau - Santa Catarina == 0              0.438799   0.136200   3.222
## Bahia - Santa Catarina == 0             0.607475   0.131991   4.602
## Rio - Santa Catarina == 0              -0.481302   0.131763  -3.653
## Sao Paulo - Santa Catarina == 0         0.741235   0.129045   5.744
## Paraiba - Santa Catarina == 0           0.073469   0.128522   0.572
## Mato Grosso - Santa Catarina == 0       0.680152   0.118889   5.721
## Pará - Roraima == 0                     0.003071   0.149995   0.020
## Pernambuco - Roraima == 0               0.004664   0.149936   0.031
## Maranhao - Roraima == 0                 0.028223   0.149062   0.189
## Ceara - Roraima == 0                    0.221009   0.142475   1.551
## Amazonas - Roraima == 0                 0.228249   0.142246   1.605
## Tocantins - Roraima == 0                0.322829   0.139373   2.316
## Minas Gerais - Roraima == 0             0.429160   0.136389   3.147
## Goias - Roraima == 0                    0.435123   0.136229   3.194
## Piau - Roraima == 0                     0.437773   0.136158   3.215
## Bahia - Roraima == 0                    0.606449   0.131947   4.596
## Rio - Roraima == 0                     -0.482328   0.131719  -3.662
## Sao Paulo - Roraima == 0                0.740210   0.129000   5.738
## Paraiba - Roraima == 0                  0.072443   0.128477   0.564
## Mato Grosso - Roraima == 0              0.679126   0.118840   5.715
## Pernambuco - Pará == 0                  0.001593   0.149820   0.011
## Maranhao - Pará == 0                    0.025152   0.148945   0.169
## Ceara - Pará == 0                       0.217938   0.142353   1.531
## Amazonas - Pará == 0                    0.225178   0.142124   1.584
## Tocantins - Pará == 0                   0.319757   0.139247   2.296
## Minas Gerais - Pará == 0                0.426089   0.136261   3.127
## Goias - Pará == 0                       0.432052   0.136100   3.175
## Piau - Pará == 0                        0.434702   0.136029   3.196
## Bahia - Pará == 0                       0.603378   0.131815   4.577
## Rio - Pará == 0                        -0.485399   0.131587  -3.689
## Sao Paulo - Pará == 0                   0.737138   0.128865   5.720
## Paraiba - Pará == 0                     0.069372   0.128341   0.541
## Mato Grosso - Pará == 0                 0.676055   0.118694   5.696
## Maranhao - Pernambuco == 0              0.023559   0.148886   0.158
## Ceara - Pernambuco == 0                 0.216344   0.142291   1.520
## Amazonas - Pernambuco == 0              0.223584   0.142062   1.574
## Tocantins - Pernambuco == 0             0.318164   0.139184   2.286
## Minas Gerais - Pernambuco == 0          0.424495   0.136196   3.117
## Goias - Pernambuco == 0                 0.430458   0.136036   3.164
## Piau - Pernambuco == 0                  0.433109   0.135965   3.185
## Bahia - Pernambuco == 0                 0.601785   0.131749   4.568
## Rio - Pernambuco == 0                  -0.486992   0.131520  -3.703
## Sao Paulo - Pernambuco == 0             0.735545   0.128796   5.711
## Paraiba - Pernambuco == 0               0.067778   0.128273   0.528
## Mato Grosso - Pernambuco == 0           0.674462   0.118620   5.686
## Ceara - Maranhao == 0                   0.192785   0.141370   1.364
## Amazonas - Maranhao == 0                0.200025   0.141139   1.417
## Tocantins - Maranhao == 0               0.294605   0.138243   2.131
## Minas Gerais - Maranhao == 0            0.400936   0.135233   2.965
## Goias - Maranhao == 0                   0.406899   0.135072   3.012
## Piau - Maranhao == 0                    0.409550   0.135001   3.034
## Bahia - Maranhao == 0                   0.578226   0.130753   4.422
## Rio - Maranhao == 0                    -0.510551   0.130523  -3.912
## Sao Paulo - Maranhao == 0               0.711986   0.127778   5.572
## Paraiba - Maranhao == 0                 0.044219   0.127250   0.348
## Mato Grosso - Maranhao == 0             0.650903   0.117513   5.539
## Amazonas - Ceara == 0                   0.007240   0.134164   0.054
## Tocantins - Ceara == 0                  0.101820   0.131113   0.777
## Minas Gerais - Ceara == 0               0.208151   0.127936   1.627
## Goias - Ceara == 0                      0.214114   0.127766   1.676
## Piau - Ceara == 0                       0.216765   0.127690   1.698
## Bahia - Ceara == 0                      0.385440   0.123191   3.129
## Rio - Ceara == 0                       -0.703336   0.122947  -5.721
## Sao Paulo - Ceara == 0                  0.519201   0.120029   4.326
## Paraiba - Ceara == 0                   -0.148566   0.119466  -1.244
## Mato Grosso - Ceara == 0                0.458118   0.109036   4.202
## Tocantins - Amazonas == 0               0.094580   0.130864   0.723
## Minas Gerais - Amazonas == 0            0.200911   0.127682   1.574
## Goias - Amazonas == 0                   0.206874   0.127511   1.622
## Piau - Amazonas == 0                    0.209525   0.127435   1.644
## Bahia - Amazonas == 0                   0.378200   0.122926   3.077
## Rio - Amazonas == 0                    -0.710576   0.122682  -5.792
## Sao Paulo - Amazonas == 0               0.511961   0.119757   4.275
## Paraiba - Amazonas == 0                -0.155806   0.119193  -1.307
## Mato Grosso - Amazonas == 0             0.450878   0.108737   4.146
## Minas Gerais - Tocantins == 0           0.106331   0.124472   0.854
## Goias - Tocantins == 0                  0.112294   0.124297   0.903
## Piau - Tocantins == 0                   0.114945   0.124219   0.925
## Bahia - Tocantins == 0                  0.283620   0.119589   2.372
## Rio - Tocantins == 0                   -0.805156   0.119338  -6.747
## Sao Paulo - Tocantins == 0              0.417381   0.116329   3.588
## Paraiba - Tocantins == 0               -0.250386   0.115749  -2.163
## Mato Grosso - Tocantins == 0            0.356298   0.104950   3.395
## Goias - Minas Gerais == 0               0.005963   0.120941   0.049
## Piau - Minas Gerais == 0                0.008614   0.120861   0.071
## Bahia - Minas Gerais == 0               0.177289   0.116098   1.527
## Rio - Minas Gerais == 0                -0.911487   0.115839  -7.869
## Sao Paulo - Minas Gerais == 0           0.311050   0.112737   2.759
## Paraiba - Minas Gerais == 0            -0.356717   0.112138  -3.181
## Mato Grosso - Minas Gerais == 0         0.249967   0.100954   2.476
## Piau - Goias == 0                       0.002651   0.120681   0.022
## Bahia - Goias == 0                      0.171326   0.115910   1.478
## Rio - Goias == 0                       -0.917450   0.115650  -7.933
## Sao Paulo - Goias == 0                  0.305087   0.112543   2.711
## Paraiba - Goias == 0                   -0.362680   0.111943  -3.240
## Mato Grosso - Goias == 0                0.244004   0.100737   2.422
## Bahia - Piau == 0                       0.168676   0.115827   1.456
## Rio - Piau == 0                        -0.920101   0.115567  -7.962
## Sao Paulo - Piau == 0                   0.302436   0.112457   2.689
## Paraiba - Piau == 0                    -0.365331   0.111857  -3.266
## Mato Grosso - Piau == 0                 0.241353   0.100642   2.398
## Rio - Bahia == 0                       -1.088777   0.110575  -9.846
## Sao Paulo - Bahia == 0                  0.133761   0.107321   1.246
## Paraiba - Bahia == 0                   -0.534006   0.106692  -5.005
## Mato Grosso - Bahia == 0                0.072677   0.094868   0.766
## Sao Paulo - Rio == 0                    1.222537   0.107041  11.421
## Paraiba - Rio == 0                      0.554770   0.106410   5.214
## Mato Grosso - Rio == 0                  1.161454   0.094551  12.284
## Paraiba - Sao Paulo == 0               -0.667767   0.103024  -6.482
## Mato Grosso - Sao Paulo == 0           -0.061083   0.090724  -0.673
## Mato Grosso - Paraiba == 0              0.606684   0.089978   6.743
##                                        Pr(>|z|)    
## Distrito Federal - Sergipe == 0          1.0000    
## Alagoas - Sergipe == 0                   1.0000    
## Espirito Santo - Sergipe == 0            0.9318    
## Acre - Sergipe == 0                       <0.01 ***
## Rondonia - Sergipe == 0                   <0.01 ***
## Amapa - Sergipe == 0                      <0.01 ***
## Santa Catarina - Sergipe == 0             <0.01 ***
## Roraima - Sergipe == 0                    <0.01 ***
## Pará - Sergipe == 0                       <0.01 ***
## Pernambuco - Sergipe == 0                 <0.01 ***
## Maranhao - Sergipe == 0                   <0.01 ***
## Ceara - Sergipe == 0                      <0.01 ***
## Amazonas - Sergipe == 0                   <0.01 ***
## Tocantins - Sergipe == 0                  <0.01 ***
## Minas Gerais - Sergipe == 0               <0.01 ***
## Goias - Sergipe == 0                      <0.01 ***
## Piau - Sergipe == 0                       <0.01 ***
## Bahia - Sergipe == 0                      <0.01 ***
## Rio - Sergipe == 0                        <0.01 ***
## Sao Paulo - Sergipe == 0                  <0.01 ***
## Paraiba - Sergipe == 0                    <0.01 ***
## Mato Grosso - Sergipe == 0                <0.01 ***
## Alagoas - Distrito Federal == 0          1.0000    
## Espirito Santo - Distrito Federal == 0   0.9798    
## Acre - Distrito Federal == 0              <0.01 ***
## Rondonia - Distrito Federal == 0          <0.01 ***
## Amapa - Distrito Federal == 0             <0.01 ***
## Santa Catarina - Distrito Federal == 0    <0.01 ***
## Roraima - Distrito Federal == 0           <0.01 ***
## Pará - Distrito Federal == 0              <0.01 ***
## Pernambuco - Distrito Federal == 0        <0.01 ***
## Maranhao - Distrito Federal == 0          <0.01 ***
## Ceara - Distrito Federal == 0             <0.01 ***
## Amazonas - Distrito Federal == 0          <0.01 ***
## Tocantins - Distrito Federal == 0         <0.01 ***
## Minas Gerais - Distrito Federal == 0      <0.01 ***
## Goias - Distrito Federal == 0             <0.01 ***
## Piau - Distrito Federal == 0              <0.01 ***
## Bahia - Distrito Federal == 0             <0.01 ***
## Rio - Distrito Federal == 0               <0.01 ***
## Sao Paulo - Distrito Federal == 0         <0.01 ***
## Paraiba - Distrito Federal == 0           <0.01 ***
## Mato Grosso - Distrito Federal == 0       <0.01 ***
## Espirito Santo - Alagoas == 0            1.0000    
## Acre - Alagoas == 0                       <0.01 ***
## Rondonia - Alagoas == 0                   <0.01 ***
## Amapa - Alagoas == 0                      <0.01 ***
## Santa Catarina - Alagoas == 0             <0.01 ***
## Roraima - Alagoas == 0                    <0.01 ***
## Pará - Alagoas == 0                       <0.01 ***
## Pernambuco - Alagoas == 0                 <0.01 ***
## Maranhao - Alagoas == 0                   <0.01 ***
## Ceara - Alagoas == 0                      <0.01 ***
## Amazonas - Alagoas == 0                   <0.01 ***
## Tocantins - Alagoas == 0                  <0.01 ***
## Minas Gerais - Alagoas == 0               <0.01 ***
## Goias - Alagoas == 0                      <0.01 ***
## Piau - Alagoas == 0                       <0.01 ***
## Bahia - Alagoas == 0                      <0.01 ***
## Rio - Alagoas == 0                        <0.01 ***
## Sao Paulo - Alagoas == 0                  <0.01 ***
## Paraiba - Alagoas == 0                    <0.01 ***
## Mato Grosso - Alagoas == 0                <0.01 ***
## Acre - Espirito Santo == 0                <0.01 ** 
## Rondonia - Espirito Santo == 0            <0.01 ***
## Amapa - Espirito Santo == 0               <0.01 ***
## Santa Catarina - Espirito Santo == 0      <0.01 ***
## Roraima - Espirito Santo == 0             <0.01 ***
## Pará - Espirito Santo == 0                <0.01 ***
## Pernambuco - Espirito Santo == 0          <0.01 ***
## Maranhao - Espirito Santo == 0            <0.01 ***
## Ceara - Espirito Santo == 0               <0.01 ***
## Amazonas - Espirito Santo == 0            <0.01 ***
## Tocantins - Espirito Santo == 0           <0.01 ***
## Minas Gerais - Espirito Santo == 0        <0.01 ***
## Goias - Espirito Santo == 0               <0.01 ***
## Piau - Espirito Santo == 0                <0.01 ***
## Bahia - Espirito Santo == 0               <0.01 ***
## Rio - Espirito Santo == 0                0.0218 *  
## Sao Paulo - Espirito Santo == 0           <0.01 ***
## Paraiba - Espirito Santo == 0             <0.01 ***
## Mato Grosso - Espirito Santo == 0         <0.01 ***
## Rondonia - Acre == 0                     1.0000    
## Amapa - Acre == 0                        1.0000    
## Santa Catarina - Acre == 0               0.9850    
## Roraima - Acre == 0                      0.9842    
## Pará - Acre == 0                         0.9819    
## Pernambuco - Acre == 0                   0.9806    
## Maranhao - Acre == 0                     0.9514    
## Ceara - Acre == 0                        0.1367    
## Amazonas - Acre == 0                     0.1174    
## Tocantins - Acre == 0                    0.0119 *  
## Minas Gerais - Acre == 0                  <0.01 ***
## Goias - Acre == 0                         <0.01 ***
## Piau - Acre == 0                          <0.01 ***
## Bahia - Acre == 0                         <0.01 ***
## Rio - Acre == 0                          0.9990    
## Sao Paulo - Acre == 0                     <0.01 ***
## Paraiba - Acre == 0                      0.6322    
## Mato Grosso - Acre == 0                   <0.01 ***
## Amapa - Rondonia == 0                    1.0000    
## Santa Catarina - Rondonia == 0           0.9999    
## Roraima - Rondonia == 0                  0.9999    
## Pará - Rondonia == 0                     0.9999    
## Pernambuco - Rondonia == 0               0.9999    
## Maranhao - Rondonia == 0                 0.9993    
## Ceara - Rondonia == 0                    0.4508    
## Amazonas - Rondonia == 0                 0.4109    
## Tocantins - Rondonia == 0                0.0731 .  
## Minas Gerais - Rondonia == 0              <0.01 ** 
## Goias - Rondonia == 0                     <0.01 ** 
## Piau - Rondonia == 0                      <0.01 ** 
## Bahia - Rondonia == 0                     <0.01 ***
## Rio - Rondonia == 0                      0.8733    
## Sao Paulo - Rondonia == 0                 <0.01 ***
## Paraiba - Rondonia == 0                  0.9586    
## Mato Grosso - Rondonia == 0               <0.01 ***
## Santa Catarina - Amapa == 0              1.0000    
## Roraima - Amapa == 0                     1.0000    
## Pará - Amapa == 0                        1.0000    
## Pernambuco - Amapa == 0                  1.0000    
## Maranhao - Amapa == 0                    1.0000    
## Ceara - Amapa == 0                       0.7948    
## Amazonas - Amapa == 0                    0.7609    
## Tocantins - Amapa == 0                   0.2394    
## Minas Gerais - Amapa == 0                0.0200 *  
## Goias - Amapa == 0                       0.0171 *  
## Piau - Amapa == 0                        0.0148 *  
## Bahia - Amapa == 0                        <0.01 ***
## Rio - Amapa == 0                         0.4366    
## Sao Paulo - Amapa == 0                    <0.01 ***
## Paraiba - Amapa == 0                     0.9993    
## Mato Grosso - Amapa == 0                  <0.01 ***
## Roraima - Santa Catarina == 0            1.0000    
## Pará - Santa Catarina == 0               1.0000    
## Pernambuco - Santa Catarina == 0         1.0000    
## Maranhao - Santa Catarina == 0           1.0000    
## Ceara - Santa Catarina == 0              0.9957    
## Amazonas - Santa Catarina == 0           0.9931    
## Tocantins - Santa Catarina == 0          0.7473    
## Minas Gerais - Santa Catarina == 0       0.1673    
## Goias - Santa Catarina == 0              0.1478    
## Piau - Santa Catarina == 0               0.1399    
## Bahia - Santa Catarina == 0               <0.01 ***
## Rio - Santa Catarina == 0                0.0373 *  
## Sao Paulo - Santa Catarina == 0           <0.01 ***
## Paraiba - Santa Catarina == 0            1.0000    
## Mato Grosso - Santa Catarina == 0         <0.01 ***
## Pará - Roraima == 0                      1.0000    
## Pernambuco - Roraima == 0                1.0000    
## Maranhao - Roraima == 0                  1.0000    
## Ceara - Roraima == 0                     0.9958    
## Amazonas - Roraima == 0                  0.9935    
## Tocantins - Roraima == 0                 0.7554    
## Minas Gerais - Roraima == 0              0.1719    
## Goias - Roraima == 0                     0.1500    
## Piau - Roraima == 0                      0.1416    
## Bahia - Roraima == 0                      <0.01 ***
## Rio - Roraima == 0                       0.0351 *  
## Sao Paulo - Roraima == 0                  <0.01 ***
## Paraiba - Roraima == 0                   1.0000    
## Mato Grosso - Roraima == 0                <0.01 ***
## Pernambuco - Pará == 0                   1.0000    
## Maranhao - Pará == 0                     1.0000    
## Ceara - Pará == 0                        0.9965    
## Amazonas - Pará == 0                     0.9946    
## Tocantins - Pará == 0                    0.7677    
## Minas Gerais - Pará == 0                 0.1796    
## Goias - Pará == 0                        0.1577    
## Piau - Pará == 0                         0.1494    
## Bahia - Pará == 0                         <0.01 ***
## Rio - Pará == 0                          0.0333 *  
## Sao Paulo - Pará == 0                     <0.01 ***
## Paraiba - Pará == 0                      1.0000    
## Mato Grosso - Pará == 0                   <0.01 ***
## Maranhao - Pernambuco == 0               1.0000    
## Ceara - Pernambuco == 0                  0.9969    
## Amazonas - Pernambuco == 0               0.9951    
## Tocantins - Pernambuco == 0              0.7750    
## Minas Gerais - Pernambuco == 0           0.1835    
## Goias - Pernambuco == 0                  0.1610    
## Piau - Pernambuco == 0                   0.1539    
## Bahia - Pernambuco == 0                   <0.01 ***
## Rio - Pernambuco == 0                    0.0320 *  
## Sao Paulo - Pernambuco == 0               <0.01 ***
## Paraiba - Pernambuco == 0                1.0000    
## Mato Grosso - Pernambuco == 0             <0.01 ***
## Ceara - Maranhao == 0                    0.9993    
## Amazonas - Maranhao == 0                 0.9988    
## Tocantins - Maranhao == 0                0.8680    
## Minas Gerais - Maranhao == 0             0.2650    
## Goias - Maranhao == 0                    0.2380    
## Piau - Maranhao == 0                     0.2263    
## Bahia - Maranhao == 0                     <0.01 ** 
## Rio - Maranhao == 0                      0.0150 *  
## Sao Paulo - Maranhao == 0                 <0.01 ***
## Paraiba - Maranhao == 0                  1.0000    
## Mato Grosso - Maranhao == 0               <0.01 ***
## Amazonas - Ceara == 0                    1.0000    
## Tocantins - Ceara == 0                   1.0000    
## Minas Gerais - Ceara == 0                0.9923    
## Goias - Ceara == 0                       0.9888    
## Piau - Ceara == 0                        0.9870    
## Bahia - Ceara == 0                       0.1792    
## Rio - Ceara == 0                          <0.01 ***
## Sao Paulo - Ceara == 0                    <0.01 ** 
## Paraiba - Ceara == 0                     0.9998    
## Mato Grosso - Ceara == 0                  <0.01 ** 
## Tocantins - Amazonas == 0                1.0000    
## Minas Gerais - Amazonas == 0             0.9950    
## Goias - Amazonas == 0                    0.9926    
## Piau - Amazonas == 0                     0.9911    
## Bahia - Amazonas == 0                    0.2046    
## Rio - Amazonas == 0                       <0.01 ***
## Sao Paulo - Amazonas == 0                 <0.01 ** 
## Paraiba - Amazonas == 0                  0.9997    
## Mato Grosso - Amazonas == 0               <0.01 ** 
## Minas Gerais - Tocantins == 0            1.0000    
## Goias - Tocantins == 0                   1.0000    
## Piau - Tocantins == 0                    1.0000    
## Bahia - Tocantins == 0                   0.7150    
## Rio - Tocantins == 0                      <0.01 ***
## Sao Paulo - Tocantins == 0               0.0462 *  
## Paraiba - Tocantins == 0                 0.8504    
## Mato Grosso - Tocantins == 0             0.0849 .  
## Goias - Minas Gerais == 0                1.0000    
## Piau - Minas Gerais == 0                 1.0000    
## Bahia - Minas Gerais == 0                0.9967    
## Rio - Minas Gerais == 0                   <0.01 ***
## Sao Paulo - Minas Gerais == 0            0.4051    
## Paraiba - Minas Gerais == 0              0.1571    
## Mato Grosso - Minas Gerais == 0          0.6340    
## Piau - Goias == 0                        1.0000    
## Bahia - Goias == 0                       0.9979    
## Rio - Goias == 0                          <0.01 ***
## Sao Paulo - Goias == 0                   0.4438    
## Paraiba - Goias == 0                     0.1337    
## Mato Grosso - Goias == 0                 0.6766    
## Bahia - Piau == 0                        0.9983    
## Rio - Piau == 0                           <0.01 ***
## Sao Paulo - Piau == 0                    0.4612    
## Paraiba - Piau == 0                      0.1247    
## Mato Grosso - Piau == 0                  0.6940    
## Rio - Bahia == 0                          <0.01 ***
## Sao Paulo - Bahia == 0                   0.9998    
## Paraiba - Bahia == 0                      <0.01 ***
## Mato Grosso - Bahia == 0                 1.0000    
## Sao Paulo - Rio == 0                      <0.01 ***
## Paraiba - Rio == 0                        <0.01 ***
## Mato Grosso - Rio == 0                    <0.01 ***
## Paraiba - Sao Paulo == 0                  <0.01 ***
## Mato Grosso - Sao Paulo == 0             1.0000    
## Mato Grosso - Paraiba == 0                <0.01 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)

par(mar=c(3, 7, 3, 3))
plot(tuk)

tukLetters <- cld(tuk)
tL <- tukLetters$mcletters$Letters
tLdf <- data.frame(
  state = levels(feux$state),
  letters = tL)

par(mar = c(8, 2, 1, 1))
boxplot(feux$number ~ feux$state, ylim = c(0, 1200), 
  las = 3, xlab = "", col = Tango_gpl)
text(x = 1:length(levels(feux$state)), 
  y = rep(1100, length(levels(feux$state))), 
  labels = tLdf$letters, srt = 90)

pour aller plus loin…

The legal Amazon comprises the states of Acre, Amapá, Pará, Amazonas, Rondonia, Roraima, and part of Mato Grosso, Tocantins, and Maranhão.

Exemple : données de type catégoriel binaire

Données de type catégoriel binaire (dataset depuis Kaggle)

On parle de régression logistique.

Medical Cost Personal Datasets

secu <- read.table("./DATA/insurance.csv", 
  header = TRUE, sep = ",")

La proba. de fumer peut-elle s’expliquer par l’âge ?

boxplot(secu$age ~ secu$smoker)

secu$smoker <- as.character(secu$smoker)
secu$smoker[secu$smoker == "yes"] <- 1
secu$smoker[secu$smoker == "no"] <- 0
secu$smoker <- as.logical(as.numeric(secu$smoker))

Age ?

secu$ageT <- cut(secu$age, breaks = seq(from = 0, to = 100, by = 5))

Age ?

ni <- tapply(secu$smoker, INDEX = secu$ageT, FUN = length)
nT <- tapply(secu$smoker, INDEX = secu$ageT, FUN = sum)
nProp <- nT/ni
xT <- seq(from = 2.5, to = 97.5, by = 5)
dfSmoke <- data.frame(xT, nProp, nT, ni)

Age ?

plot(dfSmoke$nProp ~ dfSmoke$xT)

Age ?

summary(glm(secu$smoker ~ secu$age, family = "binomial"))

## 
## Call:
## glm(formula = secu$smoker ~ secu$age, family = "binomial")
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -0.7054  -0.6890  -0.6676  -0.6480   1.8302  
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -1.184440   0.198907  -5.955  2.6e-09 ***
## secu$age    -0.004422   0.004833  -0.915     0.36    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1356.6  on 1337  degrees of freedom
## Residual deviance: 1355.8  on 1336  degrees of freedom
## AIC: 1359.8
## 
## Number of Fisher Scoring iterations: 4

Charges ?

Est-ce que le montant des charges de santé permet de prédire la proba de fumer ?

secu$chargesT <- cut(secu$charges, breaks = seq(from = 0, to = 70000, by = 5000))
ni <- tapply(secu$smoker, INDEX = secu$chargesT, FUN = length)
nT <- tapply(secu$smoker, INDEX = secu$chargesT, FUN = sum)
nProp <- nT/ni
xT <- seq(from = 2500, to = 67500, by = 5000)
dfCharges <- data.frame(xT, nProp, nT, ni)

Charges ?

plot(dfCharges$nProp ~ dfCharges$xT)

Charges ?

modL <- glm(secu$smoker ~ secu$charges, family = "binomial")
summary(modL)

## 
## Call:
## glm(formula = secu$smoker ~ secu$charges, family = "binomial")
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.7137  -0.2990  -0.1623  -0.1018   2.2494  
## 
## Coefficients:
##                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -5.698e+00  3.064e-01  -18.60   <2e-16 ***
## secu$charges  2.535e-04  1.593e-05   15.91   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1356.63  on 1337  degrees of freedom
## Residual deviance:  503.65  on 1336  degrees of freedom
## AIC: 507.65
## 
## Number of Fisher Scoring iterations: 6

Charges ?

beta0 <- coef(modL)[1]
beta1 <- coef(modL)[2]
axeX <- seq(from = 0, to = 70000, length.out = 1000)

Charges ?

plot(
  x = dfCharges$xT,
  y = dfCharges$nProp,
  col = 'red', lwd = 3, xlim = c(0, 70000),
  ylim = c(0, 1), xlab = "Charges", ylab = "Proba(smoke)")
lines(
  axeX,
  plogis(beta0 + beta1*axeX) , col='blue' , lwd = 4, lty = 3)
legend("topleft", c("obs", "logit"), lwd = 3, col = c("red", "blue"))

Charges ?

Exemple : données de type catégoriel binaire (2)

Données de type catégoriel binaire (d’après cours E. Paradis)

Dataset : AIDS in australia

library(MASS)
data(Aids2)

state: Grouped state of origin: “NSW”includes ACT and “other” is WA, SA, NT and TAS.
sex: Sex of patient.
diag: (Julian) date of diagnosis.
death: (Julian) date of death or end of observation.
status: “A” (alive) or “D” (dead) at end of observation.
T.categ: Reported transmission category.
age: Age (years) at diagnosis.

On va essayer d’expliquer le statut à la fin des observations.

genre ?

plot(y = Aids2$status, x = Aids2$sex)

genre ?

plot(Aids2$status ~ Aids2$sex)

genre ?

modL01 <- glm(status ~ sex, family = "binomial", data = Aids2)
summary(modL01)

## 
## Call:
## glm(formula = status ~ sex, family = "binomial", data = Aids2)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.3915  -1.3915   0.9775   0.9775   1.0182  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept)   0.3868     0.2160   1.791   0.0733 .
## sexM          0.1036     0.2195   0.472   0.6370  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 3777.5  on 2842  degrees of freedom
## Residual deviance: 3777.3  on 2841  degrees of freedom
## AIC: 3781.3
## 
## Number of Fisher Scoring iterations: 4

âge ?

plot(y = Aids2$status, x = Aids2$age)

âge ?

plot(Aids2$status ~ Aids2$age)

âge ?

modL02 <- glm(status ~ age, family = "binomial", data = Aids2)
summary(modL02)

## 
## Call:
## glm(formula = status ~ age, family = "binomial", data = Aids2)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.5696  -1.3663   0.9450   0.9917   1.1303  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept) 0.111819   0.149300   0.749   0.4539   
## age         0.010065   0.003881   2.593   0.0095 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 3777.5  on 2842  degrees of freedom
## Residual deviance: 3770.7  on 2841  degrees of freedom
## AIC: 3774.7
## 
## Number of Fisher Scoring iterations: 4

âge ?

Aids2$ageT <- cut(Aids2$age, breaks = seq(from = 0, to = 100, by = 10))
ni <- tapply(as.numeric(Aids2$status)-1, INDEX = Aids2$ageT, FUN = length)
nT <- tapply(as.numeric(Aids2$status)-1, INDEX = Aids2$ageT, FUN = sum)
nProp <- nT/ni
xT <- seq(from = 5, to = 95, by = 10)
dfage <- data.frame(xT, nProp, nT, ni)
modL <- modL02

âge ?

plot(
  x = dfage$xT,
  y = dfage$nProp,
  col = 'red', lwd = 3, xlim = c(0, 100),
  ylim = c(0, 1), xlab = "âge", ylab = "Proba(death)")

lines(
  x = seq(from = 0, to = 100, by = 10), 
  y = predict(modL, list(
    age = seq(from = 0, to = 100, by = 10)), 
    type = "response"), 
  col = 'blue', lwd = 4, lty = 3)
legend("topleft", c("obs", "logit"), lwd = 3, col = c("red", "blue"))

âge ?

âge et genre ?

modL03 <- glm(status ~ age*sex, family = "binomial", data = Aids2)
summary(modL03)

## 
## Call:
## glm(formula = status ~ age * sex, family = "binomial", data = Aids2)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.8256  -1.3734   0.9517   0.9873   1.5777  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)  
## (Intercept) -0.90485    0.54783  -1.652   0.0986 .
## age          0.03473    0.01383   2.512   0.0120 *
## sexM         1.10907    0.56968   1.947   0.0516 .
## age:sexM    -0.02706    0.01441  -1.878   0.0604 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 3777.5  on 2842  degrees of freedom
## Residual deviance: 3766.6  on 2839  degrees of freedom
## AIC: 3774.6
## 
## Number of Fisher Scoring iterations: 4

âge et genre ?

AIC(modL01)

## [1] 3781.269

AIC(modL02)

## [1] 3774.705

AIC(modL03)

## [1] 3774.648

On garde le modèle modL02.

Exemple : données de type gamma [0 ; +Inf]

Données de temps de survie (d’après cours E. Paradis)

Survie en jours = date mort - date diagnostic

Aids2$surv <- Aids2$death - Aids2$diag

âge ?

modLS01 <- glm(surv ~ age, family = "Gamma", 
  data = Aids2, subset = surv > 0)
summary(modLS01)

## 
## Call:
## glm(formula = surv ~ age, family = "Gamma", data = Aids2, subset = surv > 
##     0)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -3.2565  -0.9426  -0.2280   0.3740   3.0442  
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.539e-03  1.543e-04   9.969  < 2e-16 ***
## age         2.471e-05  4.199e-06   5.884 4.47e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.7935563)
## 
##     Null deviance: 3219.5  on 2813  degrees of freedom
## Residual deviance: 3192.0  on 2812  degrees of freedom
## AIC: 39502
## 
## Number of Fisher Scoring iterations: 6

Module R’Stat1 : Les modèles linéaires généralisés (GLM)

francois.rebaudo@ird.fr

Novembre 2019 ; IRD-Montpellier-France CC BY-NC-ND 3.0

Rappels sur le modèle linéaire

diapo de S. Ballesteros, ENS

GLM [glims] (d’après The R Book)

Quand ?

Une structure des erreurs

Un prédicteur linéaire

Fonction de lien

Exemple : données de comptage ~ var qt

Données de comptage

Hypothèses

surdispersion ?

Hypothèses

Hypothèses

Hypothèses

Hypothèses

Hypothèses

Structure quasipoisson (surdispersion)

Exemple : données de comptage ~ var ql

Données de comptage (dataset depuis Kaggle)

Hypothèses

Interprétation

Comp. multiples

pour aller plus loin…

Exemple : données de type catégoriel binaire

Données de type catégoriel binaire (dataset depuis Kaggle)

Age ?

Age ?

Age ?

Age ?

Charges ?

Charges ?

Charges ?

Charges ?

Charges ?

Charges ?

Exemple : données de type catégoriel binaire (2)

Données de type catégoriel binaire (d’après cours E. Paradis)

Dataset : AIDS in australia

genre ?

genre ?

genre ?

âge ?

âge ?

âge ?

âge ?

âge ?

âge ?

âge et genre ?

âge et genre ?

Exemple : données de type gamma [0 ; +Inf]

Données de temps de survie (d’après cours E. Paradis)

âge ?

Exploration de données

Novembre 2019 ; IRD-Montpellier-France
CC BY-NC-ND 3.0

GLM `[glims]` (d’après The R Book)