Effectuer des calculs de statistiques descriptives

Les statistiques descriptives sont utiles lorsqu'on veut calculer différents paramètres d'un échantillon, sans faire d'hypothèse sur la population. En outre, les paramètres de statistiques descriptives entrent souvent dans la composition des formules pour la réalisation de tests statistiques.
Pour illustrer, nous allons nous baser sur un exemple simple. Supposons que le vecteur poids contient les poids en kilos de 10 bovins. Ainsi:

poids<-c(663.03, 816.77, 689.50, 726.54, 800.53, 741.16, 738.93, 788.65, 824.50, 732.59)
poids

##  [1] 663.03 816.77 689.50 726.54 800.53 741.16 738.93 788.65 824.50 732.59

I. Paramètres de tendance centrale

Les paramètres de tendance centrale servent à résumer l'ensemble des données d'une variable en un seul paramètre. Les plus utilisés sont la moyenne, la médiane et le mode, trois paramètres qui se calculent facilement avec R.

A. La moyenne arithmétique

mean(x) calcule la moyenne arithmétique des valeurs contenues dans le vecteur x. La moyenne arithmétique est la somme des données contenues dans le vecteur x, divisée par le nombre de données.

Dans notre exemple:

mean(poids)

## [1] 752.22

ce qui correspond effectivement à

n<-length(poids)
sum(poids)/n

## [1] 752.22

B. La médiane

median(x) calcule la médiane du vecteur x. La médiane est la valeur qui coupe une série de données en deux parts égales, de manière à ce que la moitié des valeurs lui soient inférieures et l'autre moitié des valeurs lui soient supérieures.

Dans notre exemple:

median(poids)

## [1] 740.045

Pour comprendre d'où provient cette valeur, on peut demander à R de trier les données:

tri<-sort(poids)
(n+1)/2

## [1] 5.5

La médiane se situe donc au milieu de l'intervalle déterminé par la cinquième et la sixième valeur de ce vecteur trié, soit:

(tri[5]+tri[6])/2

## [1] 740.045

C. Le mode

effectifs<-table(x)
sort(effectifs)

Cette commande calcule le mode du vecteur x. Le mode est la valeur la plus fréquente d'une série de données.

R ne propose pas de formule directe pour calculer le mode. Il faut donc:

Calculer l'effectif de chaque valeur de la variable.
Trier ces effectifs pour y voir plus clair.
Le mode est la valeur dont l'effectif est le plus grand.

Le mode s'applique difficilement aux données métriques (par exemple, dans les données ci-dessus des poids de bovins, chacune des 10 valeurs n'apparaît qu'une seule fois, il n'y a donc pas de sens à calculer un mode). Nous allons donc nous baser sur une autre situation. Par exemple, imaginons un vecteur "race" contenant la race de 12 chiens:

race<-c("teckel","teckel","bichon","boxer","spitz","husky","spitz","epagneul","spitz","spitz","bichon","spitz")
effectifs<-table(race)
sort(effectifs)

## race
##    boxer epagneul    husky   bichon   teckel    spitz 
##        1        1        1        2        2        5

Il est clair, à la lecture de ce dernier résultat, que le mode correspond à la valeur "spitz".

II. Paramètres de dispersion

Les paramètres de dispersion sont des indices permettant de savoir si une série de données est fort resserrée autour d'un paramètre de tendance centrale ou si, au contraire, les données sont plus dispersées: plus les données sont dispersées et plus les valeurs des paramètres de dispersion sont grandes.

A. La variance et l'écart-type

var(x) calcule la variance du vecteur x.
sd(x) calcule l'écart-type du vecteur x.

La variance et l'écart-type sont deux paramètres reliés car l'écart-type est égal à la racine carré de la variance. Si on reprend l'exemple des poids des 10 bovins donné plus haut:

var(poids)

## [1] 2920.5

sd(poids)

## [1] 54.04165

B. L'étendue

L'étendue est la différence entre la valeur maximum et la valeur minimum d'une série de données. et<-max(x)-min(x) calcule l'étendue du vecteur x en soustrayant la valeur minimum de x à la valeur maximum de x.

Dans notre exemple des poids des bovins:

max(poids)-min(poids)

## [1] 161.47

C. Le coefficient de variation

Le coefficient de variation est l'écart-type divisé par la moyenne, le tout multiplié par 100. Il représente donc une mesure relative de dispersion et mesure la dispersion en pourcentage de la moyenne.

(sd(x)/mean(x))*100 calcule le coefficient de variation du vecteur x.

Dans notre exemple des poids des bovins:

(sd(poids)/mean(poids))*100

## [1] 7.184288

D. L'intervalle inter-quartiles

Les quartiles divisent les données en quatre parties correspondant chacune à 25% des valeurs. Le premier quartile (Q1) est la valeur qui divise l'échantillon de telle sorte que 25% des valeurs lui sont inférieures et 75% des valeurs lui sont supérieures. Le second quartile (Q2) est la médiane. Et le troisième quartile (Q3) divise l'échantillon de telle sorte que 75% des valeurs lui sont inférieures et 25% des valeurs lui sont supérieures. La différence entre le premier et le troisième quartile peut être une mesure de dispersion.

q1<-quantile(x,0.25) calcule premier quantile du vecteur x.
q3<-quantile(x,0.75) calcule troisième quantile du vecteur x.
q3-q1 calcule l'intervalle inter-quartile du vecteur x.

Dans notre exemple des poids des bovins:

q1<-quantile(poids,0.25)
q3<-quantile(poids,0.75)
q3-q1

##     75% 
## 69.5075

III. Autres paramètres intéressants

A. Les quantiles

L'approche suivie pour la médiane (50% de valeurs inférieures) et pour les quartiles (25% et 75% de valeurs inférieures) peut être généralisée à d'autres pourcentages. En fonction de la valeur choisie pour p, on obtient une valeur de x telle que une proportion p de l'échantillon lui est inférieure (et une proportion (1-p) lui est supérieure). Il existe des quantiles particuliers fréquemment utilisés: si les quartiles fonctionnent de quart en quart (le deuxième quartile, ou quantile 50%, est la médiane), les déciles fonctionnent de dixièmes en dixièmes et les centiles de centièmes en centièmes.
quantile(x,p) calcule le quantile du vecteur x tel qu'une proportion p de l'échantillon lui soit inférieure.

Voici quelque illustrations avec notre exemple des poids des bovins:

quantile(poids,0.1)

##     10% 
## 686.853

quantile(poids,0.2)

##     20% 
## 719.132

quantile(poids,0.25)

##      25% 
## 728.0525

quantile(poids,0.5)

##     50% 
## 740.045

quantile(poids,0.99)

##      99% 
## 823.8043