Les statistiques descriptives sont utiles lorsqu'on veut calculer différents paramètres d'un échantillon, sans faire d'hypothèse sur la population. En outre, les paramètres de statistiques descriptives entrent souvent dans la composition des formules pour la réalisation de tests statistiques.
Pour illustrer, nous allons nous baser sur un exemple simple. Supposons que le vecteur poids contient les poids en kilos de 10 bovins. Ainsi:
poids<-c(663.03, 816.77, 689.50, 726.54, 800.53, 741.16, 738.93, 788.65, 824.50, 732.59)
poids
## [1] 663.03 816.77 689.50 726.54 800.53 741.16 738.93 788.65 824.50 732.59
Les paramètres de tendance centrale servent à résumer l'ensemble des données d'une variable en un seul paramètre. Les plus utilisés sont la moyenne, la médiane et le mode, trois paramètres qui se calculent facilement avec R.
mean(x) calcule la moyenne arithmétique des valeurs contenues dans le vecteur x. La moyenne arithmétique est la somme des données contenues dans le vecteur x, divisée par le nombre de données.
Dans notre exemple:
mean(poids)
## [1] 752.22
ce qui correspond effectivement à
n<-length(poids)
sum(poids)/n
## [1] 752.22
median(x) calcule la médiane du vecteur x. La médiane est la valeur qui coupe une série de données en deux parts égales, de manière à ce que la moitié des valeurs lui soient inférieures et l'autre moitié des valeurs lui soient supérieures.
Dans notre exemple:
median(poids)
## [1] 740.045
Pour comprendre d'où provient cette valeur, on peut demander à R de trier les données:
tri<-sort(poids)
(n+1)/2
## [1] 5.5
La médiane se situe donc au milieu de l'intervalle déterminé par la cinquième et la sixième valeur de ce vecteur trié, soit:
(tri[5]+tri[6])/2
## [1] 740.045
Le mode s'applique difficilement aux données métriques (par exemple, dans les données ci-dessus des poids de bovins, chacune des 10 valeurs n'apparaît qu'une seule fois, il n'y a donc pas de sens à calculer un mode). Nous allons donc nous baser sur une autre situation. Par exemple, imaginons un vecteur "race" contenant la race de 12 chiens:
race<-c("teckel","teckel","bichon","boxer","spitz","husky","spitz","epagneul","spitz","spitz","bichon","spitz")
effectifs<-table(race)
sort(effectifs)
## race
## boxer epagneul husky bichon teckel spitz
## 1 1 1 2 2 5
Il est clair, à la lecture de ce dernier résultat, que le mode correspond à la valeur "spitz".
Les paramètres de dispersion sont des indices permettant de savoir si une série de données est fort resserrée autour d'un paramètre de tendance centrale ou si, au contraire, les données sont plus dispersées: plus les données sont dispersées et plus les valeurs des paramètres de dispersion sont grandes.
var(poids)
## [1] 2920.5
sd(poids)
## [1] 54.04165
L'étendue est la différence entre la valeur maximum et la valeur minimum d'une série de données. et<-max(x)-min(x) calcule l'étendue du vecteur x en soustrayant la valeur minimum de x à la valeur maximum de x.
Dans notre exemple des poids des bovins:
max(poids)-min(poids)
## [1] 161.47
Le coefficient de variation est l'écart-type divisé par la moyenne, le tout multiplié par 100. Il représente donc une mesure relative de dispersion et mesure la dispersion en pourcentage de la moyenne.
(sd(x)/mean(x))*100 calcule le coefficient de variation du vecteur x.(sd(poids)/mean(poids))*100
## [1] 7.184288
Les quartiles divisent les données en quatre parties correspondant chacune à 25% des valeurs. Le premier quartile (Q1) est la valeur qui divise l'échantillon de telle sorte que 25% des valeurs lui sont inférieures et 75% des valeurs lui sont supérieures. Le second quartile (Q2) est la médiane. Et le troisième quartile (Q3) divise l'échantillon de telle sorte que 75% des valeurs lui sont inférieures et 25% des valeurs lui sont supérieures. La différence entre le premier et le troisième quartile peut être une mesure de dispersion.
q1<-quantile(x,0.25) calcule premier quantile du vecteur x.q1<-quantile(poids,0.25)
q3<-quantile(poids,0.75)
q3-q1
## 75%
## 69.5075
L'approche suivie pour la médiane (50% de valeurs inférieures) et pour les quartiles (25% et 75% de valeurs inférieures) peut être généralisée à d'autres pourcentages. En fonction de la valeur choisie pour p, on obtient une valeur de x telle que une proportion p de l'échantillon lui est inférieure (et une proportion (1-p) lui est supérieure). Il existe des quantiles particuliers fréquemment utilisés: si les quartiles fonctionnent de quart en quart (le deuxième quartile, ou quantile 50%, est la médiane), les déciles fonctionnent de dixièmes en dixièmes et les centiles de centièmes en centièmes.
quantile(x,p) calcule le quantile du vecteur x tel qu'une proportion p de l'échantillon lui soit inférieure.
Voici quelque illustrations avec notre exemple des poids des bovins:
quantile(poids,0.1)
## 10%
## 686.853
quantile(poids,0.2)
## 20%
## 719.132
quantile(poids,0.25)
## 25%
## 728.0525
quantile(poids,0.5)
## 50%
## 740.045
quantile(poids,0.99)
## 99%
## 823.8043