
THÉORIE
DE LA DÉMONSTRATION |
NOMBRES | OPÉRATEURS
ARITHMÉTIQUES
THÉORIE DES NOMBRES
| THÉORIE DES ENSEMBLES |
PROBABILITÉS | STATISTIQUES
Dernière mise à jour de ce chapitre:
2020-12-24 21:30:54 |
{oUUID 1.705}
Version: 3.2 Révision 24 | Avancement: ~90%
vues
depuis le 2012-01-01:
8'782
LISTE DES SUJETS TRAITÉS SUR CETTE PAGE
STATISTIQUES DE RANGS
Les statistiques de rangs, appelées aussi "statistiques
d'ordre",
sont définies comme l'ensemble des techniques de calculs statistiques
ou d'inférence statistiques qui ont pour objectif principal de
se débarrasser de la connaissance d'une distribution paramétrée
et en utilisant pour cela uniquement les rangs (ordonnés) des caractéristiques
mesurées. Il s'agit d'un outil très puissant et très
utilisé dans
la pratique pour faire de la statistique non-paramétrée!
TESTS DE RANG (NON PARAMÉTRIQUES)
Comme nous l'avons déjà mentionné plus haut, nous parlons de
tests paramétriques lorsque nous stipulons que les données sont
issues d'une distribution paramétrée. Dans ce cas, les caractéristiques
des données peuvent être résumées à l'aide de paramètres estimés
sur l'échantillon, la procédure de test subséquente ne porte alors
que sur ces paramètres.
Rappelons aux lecteurs les tests le petit nombre de tests (du
moins ceux qui ont des noms particuliers) que nous avons démontrés
jusqu'à maintenant
(nous espérons ne pas avoir commis d'erreurs trop graves
dans le listing ci-dessous):
(1) Test-T de Student
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
souvent utilisé en bilatéral
Concerne:
La moyenne lorsque l'écart-type théorique est
inconnu
Contrainte(s):
Distribution Normale des données. |
(2) Test-p de l'intervalle de confiance
de proportions
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
souvent utilisé en bilatéral
Concerne:
La proportion de bons ou mauvais éléments dans
une population
Contrainte(s):
Distribution Binomiale (et asymptotiquement) Normale
des données ( ). |
(3) Test-p de
l'égalité de
deux proportions
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
souvent utilisé en unilatéral
Concerne:
L'égalité de deux proportions
Contrainte(s):
Distribution Binomiale et asymptotiquement Normale
des données ( ) |
(4) Test binomial exact
(égalité de
deux proportions)
Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en
bilatéral
Concerne:
L'égalité de deux proportions.
Contrainte(s):
Distribution Binomiale (petit échantillon d'un grande population) |
(5) Test des signes
(de la médiane)
de deux échantillons appariés
Type:
Test d'hypothèse non-paramétrique de type intervalle de confiance
souvent
utilisé en
bilatéral
Concerne:
L'égalité des signes (implicitement des différences) de
données appariées
Contrainte(s):
Distribution Binomiale (petit échantillon d'un grande population) mais
valeurs sous-jacentes continues. |
(6) Test-T de Student de deux
moyennes d'échantillons appariés
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
souvent utilisé unilatéral.
Concerne:
La différence de deux moyennes de deux échantillons
identiques
Contrainte(s):
Distribution Normale des données |
(7) Test-Z
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
plus utilisé en bilatéral qu'en unilatéral.
Concerne:
La moyenne lorsque l'écart-type théorique est
connu
Contrainte(s):
Distribution Normale des données |
(8) Test-Z de la moyenne à deux échantillons
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
souvent utilisé en bilatéral
Concerne:
La différence de deux moyennes lorsque les écarts-types
théoriques sont connus
Contrainte(s):
Distribution Normale des données |
(9) Test du Khi-deux
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
souvent utilisé en bilatéral
Concerne:
La variance théorique
Contrainte(s):
Distribution Normale des données |
(10) Test-F de Fisher
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
souvent utilisé en bilatéral
Concerne:
La comparaison de deux variances théoriques
Contrainte(s):
Distribution Normale des données |
(11) Test-T homoscédastique
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
souvent utilisé en unilatéral
Concerne:
L'égalité de deux moyennes
Contrainte(s):
Distribution Normale des données et égalité des variances
expérimentales |
(12)
Test-T hétéroscédastique
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
souvent utilisé en unilatéral
Concerne:
L'égalité de deux moyennes
Contrainte(s):
Distribution Normale des données et non-égalité des
variances expérimentales (cas généralisé du
Test-T homoscédastique) |
(13) Test de l'ANOVA à un facteur
contrôlé
Type:
Test d'hypothèse paramétrique de type intervalle de confiance
utilisé uniquement en unilatéral
Concerne:
L'égalité des moyennes des échantillons (supposés
implicitement appariés)
Contrainte(s):
Distribution Normale des données avec variances théoriques
identiques et variances expérimentales connues et indépendance
des échantillons. Les résidus doivent in extenso
aussi
être normalement distributés |
(14) Test de l'ANOVA à deux
facteurs contrôles avec ou sans répétition
Type:
Test d'hypothèse paramétrique de type intervalle de confiance utilisé uniquement
en unilatéral
Concerne:
L'égalité des moyennes des échantillons fonction d'un paramètre
variable contrôlable (ajustable).
Contrainte(s):
Distribution Normale des données avec variances théoriques identiques
et variances expérimentales connues et indépendance des échantillons.
Les résidus doivent in extenso aussi être normalement distributés. |
(15) Test d'ajustement (dit aussi "test
d'adéquation de Pearson") du Khi-deux
Type:
Test d'ajustement paramétrique utilisé uniquement en
unilatéral
Concerne:
Adéquation de valeurs expérimentales à une loi théorique
Contrainte(s):
Avoir suffisamment de classes d'intervalles et de
données
Remarque: Appelé "Test de normalité" si comparé à une
loi Normale. |
(16) Test d'indépendance du
Khi-deux
Type:
Test d'ajustement (étudié dans le chapitre de Méthodes
Numériques) paramétrique
utilisé uniquement
en unilatéral
Concerne:
Vérifier la dépendance ou l'indépendance
(différence) de données
provenant d'une table de contingence. Vérifie donc si
les
moyennes
sont différentes ou pas entre groupes en se basant sur la contingence
Contrainte(s):
Avoir suffisamment de classes d'intervalles et de
données |
(17) Test
de la médiane
Type:
Test d'hypothèse non paramétrique étudié de type
intervalle de confiance
toujours
utilisé en
bilatéral
Concerne:
La médiane
Contrainte(s):
Un nombre d'échantillons suffisant pour faire un bootstrap. |
(18) Test de Mood (de
la médiane)
Type:
Test d'hypothèse non paramétrique basé sur la classification
de
données supérieures et inférieurs à la médiane.
Les données sont aussi parfois angées dans une table de contingence
après quoi on calcule un test d'indépendance du Khi-deux et
le
test de la médiane.
Concerne:
Vérifier la dépendance ou l'indépendance (différence)
de données provenant d'une table de contingence (vérifie donc si les
médianes
sont différentes ou pas entre groupes en se basant sur la contingence)
Contrainte(s):
Avoir suffisamment de classes d'intervalles et de
données (puisque basé sur la loi hypergéométrique et le
test d'indépendance du Khi-deux) |
(19)
Test de Poisson à un et deux échantillons
Type:
Tests d'hypothèses paramétrique tantôt en unilatéral
ou bilatéral basé sur les événements
rares (dixit la moyenne de la loi de Poisson)
Concerne:
Déterminer un intervalle de confiance pour l'occurrence
d'événements
rares sur une période donnée afin d'identifier
une anomalie ou une différence statistiquement significative
par rapport à des
objectifs ou des nromes.
Contrainte(s):
Les événements suivent une loi de Poisson mais
sont approximés dans le cas à deux échantillons par une loi
Normale...
|
(20) Test C de Cochran
Type:
Test d'hypothèse paramétrique utilisé en unilatéral
Concerne:
La détection d'une variance abérrante parmi un ensemble de
variances avant d'effecteur une ANOVA.
Contrainte(s):
Suppose les données normalement distribuées. |
(21) Test
de Ryan-Joiner (version simplifiée de Shapiro-Wilk)
Type:
Test d'hypothèse non-paramétrique utilisé uniquement
en unilatéral sur le coefficient de corrélation.
Concerne:
Déterminer si des mesures une fois centrées et
réduites peuvent
être considérées comme normalement distribuées.
Contrainte(s):
Les mesures suivent une loi Normale (in extenso centrée réduite
après normalisation). |
(22) Test du Kappa de Cohen Type:
Test d'hypothèse paramétrique étudié dans le chapitre
de Méthodes Numériques et utilisé uniquement en unilatéral
Concerne:
Tableau de contingence dichotomique (binaire) dont on souhaite vérifier
si les agréments
entre experts correspondent
Contrainte(s):
Les valeurs du tableau de contingence dichotomique suivent une loi Normale (in
extenso
centrée
réduite
après normalisation) et très très approximativement une
loi du Khi-deux
à un degré de liberté. |
(23) Test de McNemar
(données appariées) Type:
Test d'hypothèse paramétrique étudié dans le
chapitre
de Méthodes Numériques utilisé uniquement en unilatéral
mais
avec intervalle de confiance de la différence en bilatéral
Concerne:
Tableau de contingence dichotomique (binaire) dont on souhaite vérifier
si les agréments
entre experts correspondent avant et après (car les données ne sont pas indépendantes)
Contrainte(s):
Les valeurs du tableau de contingence dichotomique suivent une loi Normale (in
extenso
centrée
réduite
après normalisation) et très très approximativement une
loi du Khi-deux
à un degré de liberté. |
(24) Test exact de Fisher
Type:
Test d'ajustement (étudié dans le chapitre de Méthodes Numériques)
paramétrique utilisé principalement en bilatérial
Concerne:
Vérifier si la configuration observée dans un tableau de contingence
est une situation extrême par rapport aux situations possibles.
Contrainte(s):
Aucune en particulière
|
(25) Test de (Cochran)-Mantel-Haenzel Type:
Test d'ajustement (étudié dans le chapitre de Méthodes Numériques)
paramétrique utilisé principalement en unilatéral
Concerne:
Vérifier si différences entre un groupe témoin et un group test à travers
des strates de tableaux de coningences sont significatives ou non.
Contrainte(s):
Les strates sont indépendantes, la tailles des populations tests ainsi que celle
correspondant à un des groupes doit permettre d'approximer la loi hypergéométrique
par une loi Normale. |
Tableau: 7.1 -Tests courants et démontrés jusqu'à maintenant sur
le présent site Internet
Le lecteur intéressé pourra se référer à l'excellent
ouvrage en langue anglaise de Gopal K. Kanji qui
contient une présentation sommaire avec exemples des 100 tests
statistiques paramètriques et non paramétriques les plus utilisés
dans le monde.
Les
tests non paramétriques (comme les deux tests du Khi-deux
déjà vus) ne font eux aucune hypothèse sur la distribution sous-jacente
des données. L'étape préalable qui consistait uniquement à estimer
les paramètres des distributions avant de procéder au test d'hypothèse
proprement dit n'est plus nécessaire.
Lorsque les données sont quantitatives, les tests non paramétriques
transforment les valeurs en rangs. L'appellation "tests
de rangs" est alors souvent rencontrée. Lorsque les données sont
qualitatives, seuls les tests non paramétriques sont utilisables.
L-STATISTIQUES
Avant de s'attaquer aux tests non paramétriques, donnons
quelques définitions que lecteur risquerait de trouver dans
la littérature
hyperspécialisée et dont nous avons évité l'utilisation
(du moins jusqu'à maintenant...).
La médiane, la moyenne et l'étendue suggèrent l'utilisation de
combinaisons linéaires de composantes du vecteur des statistiques
d'ordre.
Ainsi, notons une
statistique d'ordre (donc les valeurs ordonnées dans l'ordre décroissant
et numérotées par leur rang). Nous définissons
alors la "L-statistique" par:
(7.1)
et donc le premier "L-estimateur" le plus connu est
la moyenne arithmétique pour laquelle:
(7.2)
Le deuxième L-estimateur le plus connu est la médiane pour laquelle
nous avons lorsque n est impair:
(7.3)
et lorsque n est pair:
(7.4)
Enfin, le troisième L-estimateur le plus connu est l'étendue pour
lequel nous avons:
(7.5)
Il y a d'autres L-estimateurs empiriques
mais nous nous arrêterons ici car la liste est relativement longue.
TEST DE LA SOMME DES RANGS DE WILCOXON
L'idée du "test de la somme
des rangs de Wilcoxon" est
la suivante: si nous rassemblons deux échantillons de mesures,
et que nous rangeons les valeurs dans l'ordre, l'alternance des (de
taille )
et des (de
taille )
devrait être assez régulière si les deux échantillons
de loi de répartition F et respectivement G suivent
la même
loi de probabilité. Il s'agit donc d'un "test d'ajustement".
Il ne s'agit donc pas comme le test d'ajustement du Khi-deux
de comparer des mesures à une loi théorique, mais à d'autres mesures.
Remarque: Le test de la somme des
rangs de Wilcoxon est donc un test non paramétrique
parce que nous n'avons pas besoin d'un quelconque indicateur de
dispersion ou de position des variables aléatoires étudiées
pour l'utiliser. De plus, c'est un test dit robuste dans le sens
qu'il
ne suppose pas la normalité des données.
Prenons un exemple avant de nous attaquer à l'aspect théorique.
Voici deux échantillons de taille 10 ( )
de variables quantitatives:
(7.6)
Remarque: Le test de la somme des
rangs de Wilcoxon peut tout à fait être utilisé pour
des variables ordinales (donc catégorielles mais à condition
qu'elles soient en un nombre acceptable). Typiquement, le test
de la somme des rangs de Wilcoxon est aussi utilisé pour
analyser la réponse à des sondages en entreprise
utilisant des échelles de Likert sur 7 points.
Voici les statistiques d'ordre de l'échantillon de taille
20 ( )
regroupé et ordonné (les 10 valeurs du
premier échantillon sont soulignées):
(7.7)
Les valeurs du premier échantillon X (dites "valeurs
de traitement") ont tendance à être plus petites
que celles du second Y (dites "valeurs
de contrôle") ce que
nous représentons souvent sous la forme graphique suivante
(en trichant un peu avec Microsoft Excel 11.8346):

Figure: 7.1 - Comparaison des valeurs de deux échantillons dans Microsoft Excel 11.8346
L'idée est alors de chercher à savoir si cette tendance
est statistiquement significative. C'est-à-dire de savoir
si nous avons une réelle différence du type entre
leurs lois de répartitions respectives:

Figure: 7.2 - Exemple générique de la comparaison de deux foctio de répartitions
ou si elles peuvent considérées comme identiques. Pour cela,
il faut bien étudier la notion de "rang":
Étant donné un n-échantillon aléatoire d'une
loi statistique continue quelconque, nous notons le
rang des ordonnés
dans une population d'échantillons. Le rang i est donc un
nombre entier non nul et strictement positif compris entre 1 et N (somme
des tailles de tous les échantillons).
Exemple:
Dans:
(7.8)
Nous avons les "statistiques d'ordre" respectives:
(7.9)
Une fois le concept de "rang" défini,
intéressons-nous à la
somme dans le cadre de notre exemple avec les deux échantillons:
(7.10)
La somme des rangs, notée traditionnellement (W pour
Wilcoxon), du premier échantillon est alors:
(7.11)
et pour le deuxième échantillon:
(7.12)
Valeurs que nous appelons "statistique
de Wilcoxon".
Nous pouvons donc déjà constater qu'il y a effectivement une
différence qui semble a priori non négligeable en termes de rang
sur les deux échantillons. Tout le problème reste maintenant à construire
un outil mathématique rigoureux permettant d'en conclure un fait
avec une certaine certitude.
Pour cela, introduisons d'abord la moyenne des rangs en utilisant
le résultat démontré dans le chapitre de Suites et Séries en considérant
un seul échantillon:
(7.13)
En calculant cela, nous remarquons assez vite qu'il s'agit de
l'espérance de la loi discrète uniforme démontrée plus haut dans
ce même chapitre pour une variable aléatoire discrète dont les
valeurs sont comprises entre 1 et n, soit exactement la
définition du rang! Ainsi, nous avons le rang qui aura pour caractéristique
de moyenne et de variance pour toute la population:
(7.14)
Pour ceux qui trouverais cette analogie douteuse voici sinon la
démonstration de la variance en utilisant la relation de Huyghens
et la somme des carrées des entiers positifs démontrée dans le
chapitre de Suites Et Séries:
(7.15)
Mais évidemment pour un échantillon seul cela n'a aucun intérêt!
Reprenons nos deux séries respectivement
de tailles égales sans
distinction:
(7.16)
Nous avons alors les indicateurs statistiques de rangs sans distinction
(il faut bien garder en tête que nous ne savons pas encore à ce
niveau du développement si cela nous sera utile ou non):
(7.17)
et les indicateurs statistiques des rangs mais cette fois-ci
avec distinction:
(7.18)
Nous avons alors les indicateurs statistiques locaux:
(7.19)
Ces calculs étant effectués, nous n'avons ceci dit
rien de concrètement
rigoureux pour l'instant en ce qui concerne le test de la somme
des rangs de Wilcoxon dont l'objectif est pour rappel de vérifier si
les deux échantillons
suivent la même loi ou non (et donc ont in extenso les mêmes moments
comme l'espérance, la variance, la médiane, etc.).
Pour avancer, considérons les valeurs
de l'échantillon X. Nous savons (cf.
chapitre de Probabilités),
qu'il y a alors:
(7.20)
nombre de rangements possibles des dans
la population des échantillons et que si le test de la somme
des rangs de Wilcoxon se vérifie (c'est-à-dire: les lois de
probabilités
sont les mêmes
pour les deux échantillons), les différents rangements
sont équiprobables.
Par exemple, si nous prenons deux échantillons avec
respectivement chacun deux mesures (2 variables aléatoires de traitement
et 2 de contrôle), nous avons :
(7.21)
arrangements
différents tous distincts:
(7.22)
Mais ce n'est pas ce que nous voulons dans le cas présent car
déjà nous souhaiterions pouvoir distinguer les deux échantillons
et aussi ne pas prendre en compte les arrangements qui consistent
uniquement en une permutation des variables d'un même échantillon.
Nous avons alors (cf. chapitre de Probabilités):
(7.23)
combinaisons possibles! Effectivement avec deux échantillons
comprenant deux variables de traitement (X) et deux variables
de contrôle
(Y), nous avons:
Rangs possibles
Contrôles
|
Rangs possibles
Traitements
|
 |
1,
2
1, 3
1, 4 |
3, 4
2, 4
2,
3 |
7
6
5 |
2, 3
2, 4 |
1, 4
1, 3 |
5
4 |
3, 4 |
1, 2 |
3 |
Tableau: 7.2 - Représentation des rangs de 2 variables de traitement et de contrôle
Si l'hypothèse du test de la somme des rangs de Wilcoxon
est juste, les 6 classements sont équiprobables. Nous en
déduisons
le tableau suivant:
Valeur de  |
3 |
4 |
5 |
6 |
7 |
Probabilité |
 |
 |
 |
 |
 |
Cumulatif |
 |
 |
 |
 |
 |
Tableau: 7.3 - Probabilités associées au test de la somme des rangs Wilcoxon
Ce tableau étant construit, supposons que nous observions pour
la somme des ranges des variables de traitement: .
Le seuil d'un test unilatéral donnerait alors conformément au tableau
ci-dessus:
(7.24)
ou si nous obtenions :
(7.25)
Nous rejetterions donc l'hypothèse d'une distribution identique
entre les deux échantillons à tout seuil supérieur (ou respectivement
inférieur) fixé à l'avance par la politique du laboratoire... en
test unilatéral ou bilatéral (raison pour laquelle les logiciels
donnent les valeurs unilatérales du test + bilatérales en même
temps).
Deux choses très importantes qu'il faut remarquer pour la suite
sont que:
- Premièrement dans la construction du tableau précédent (dont
voici à nouveau une partie):
Valeur de  |
3 |
4 |
5 |
6 |
7 |
Probabilité |
 |
 |
 |
 |
 |
Tableau: 7.4 - Probabilités associées au test de de la somme des rangs
Wilcoxon
Il y a une symétrie à la valeur 5, ce qui signifie
que la loi de est
symétrique dans ce cas particulier. Mais si nous prenons
un autre exemple avec deux échantillons comprenant respectivement
deux variables de contrôle et trois de traitements (deux
variables aléatoires):
Valeur de  |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Probabilité |
 |
 |
 |
 |
 |
 |
 |
Tableau: 7.5 - Probabilités associées au test de de la somme des rangs
Wilcoxon
le lecteur pourra vérifier que quel que soit le nombre d'échantillons
et le nombre de variables de contrôle et de traitement, le tableau
de probabilités ci-dessus est toujours symétrique (bon il y a une
démonstration mathématique de ceci mais je la trouve peu élégante).
Mais au fait c'est assez intuitif, comme les combinaisons sont
indépendantes du fait que les rangs soient rangés dans l'ordre
croissant ou décroissant, il est forcé qu'il y ait une symétrie.
- Deuxièmement les valeurs des variables mesurées ne rentrent
pas en compte dans cette statistique paramétrique mais uniquement
les valeurs tabulées des rangs avec leurs probabilités associées.
Effectivement, comme vous avez pu le remarquer, nous n'avons pas
eu besoin des valeurs explicites des variables aléatoires pour
construire le tableau précédent.
Maintenant, sachant que la loi de est
symétrique et discrète nous souhaiterions calculer son espérance
(nous ne intéresserons pas au calcul de la variance de cette loi
car nous trouvons qu'elle n'apporte dans la pratique aucune information
utile).
Le calcul de l'espérance est relativement facile. Effectivement,
comme la loi est symétrique, l'espérance est alors la moyenne de
la borne supérieure et inférieure des rangs. Voyons cela:
- La plus petite valeur possible de est
en supposant qu'elle est dans l'échantillon X (les
algorithmes informatiques déterminent automatiquement dans
quel
échantillon mais de toute façon dans la pratique, les échantillons
ont quasiment toujours la même taille):
(7.26)
- La plus grande valeur possible est naturellement (se souvenir
que ):
(7.27)
L'espérance de la somme des rangs d'un des deux échantillons
vaut alors:
(7.28)
Donc au final:
(7.29)
Pour le calcul de la variance, qui nous sera utile
pour faire au besoin une approximation que nous verrons plus
loin, apparaît
(malheureusement) la covariance car la connaissance d'un des
rangs donnne une information partielle
sur les autres. Nous avons donc:
(7.30)
Nous savons déjà au vu de ce que nous avons démontré
juste plus haut que:
(7.31)
Le problème reste donc le terme avec la covariance.
Pour la calculer il existe des techniques rigoureuses tenant sur
plusieurs pages et une astuce qui est beaucoup plus courte. L'astuce
consiste à utiliser la variable globale de rang que
nous noterons avec .
Comme la somme des est
une constante, nous avons alors:
(7.32)
Il vient alors:
(7.33)
Nous pouvons alors reprendre le calcul initial en remplaçant
les covariances par leur expression, la dernière relation
obtenue pour les covariances calculées sur les s'appliquant également
(ce qui n'est pas forcément intuitif... mais l'astuce fonctionne)
aux :
(7.34)
Soit au final:
(7.35)
Ce qui est bien le même résultat que la méthode rigoureuse
que l'on peut trouver dans certaines rares références.
Exemple:
E1. Passons à un cas pratique d'abord pour le cas exact.
Considérons
donc 2 échantillons
comprenant 2 variables de traitement (X) et deux variables
de contrôle
(Y) (c'est un peu simpliste et absurde comme exemple
mais cela facilite l'aspect pédagogique...), nous avons:
(7.36)
Soit (la variable de traitement a donc le rangs 1 et 3 ce qui
fait une somme de rang de 4):
(7.37)
Soit:
(7.38)
Nous avons le tableau suivant comme nous l'avons montré plus
haut:
Valeur de  |
3 |
4 |
5 |
6 |
7 |
Probabilité |
 |
 |
 |
 |
 |
Tableau: 7.6 - Probabilités associées au test de la somme des rangs Wilcoxon
avec dans le cas présent:
(7.39)
Si nous choisissons le seuil de confiance traditionnel à 5% en
bilatéral, nous avons selon le tableau ci-dessus que:
(7.40)
(7.41)
Donc en d'autres termes nous voyons qu'il y a:
(7.42)
de probabilité cumulée que soit
compris entre 3 et 7 (la barre au-dessus du 6 signifie pour rappel
que ce chiffre se répète à l'infini). Donc
forcément
4 est compris dans l'intervalle bilatéral du 95%... et nous
pouvons accepter l'hypothèse
comme quoi les deux échantillons ne sont pas différents.
La p-value correspondant en bilatéral est donc
la moitié
de 33.333333%.
Remarque: Au fait si nous voulions faire un exemple calculatoire
manuel intéressant en jouant avec un seuil bilatéral de 5% (soit
de 2.5% de chaque côté) il faudrait au moins 2 échantillons avec
4 variables aléatoires, soit 70 combinaisons de rangs possibles.
En-dessous de 4 variables aléatoires par échantillons, il est évident
que le test bilatéral à seuil de 95% sera tel qu'on ne rejettera
jamais l'hypothèse d'égalité...
Si la taille des deux échantillons est assez grande (la majorité
des praticiens considérent que chaque échantillon doit avoir au
moins 20 individus), il a été montré par simulations que nous pouvons
faire l'approximation (utilisée par beaucoup de logiciels de statistiques):
(7.43)
bien évidemment en déterminant ensuite
toujours la p-value en bilatéral. Avec l'exemple
précédent ( n'ayant que 4 individus au total),
nous avons donc:
(7.44)
Ce qui correspondant à une probabilité cumulée de
21.93%. Donc la p-value correspondante en bilatéral est
d'environ 44% (à comparer à la valeur d'environ 33% avec
le cas exact).
TEST DE LA SOMME DES RANGS DE MANN-WITHNEY
Le "test de la somme des rangs de Mann-Withney"
est au fait un test d'ajustement non-paramétrique
très simple qui se déduit du test
de la somme des rangs de Wilcoxon. Par ailleurs il en est inspiré à un
tel point que nous l'appelons parfois dans l'industrie le "test
de Wilcoxon-Mann-Withney" ou "test
d'ajustement de Wilcoxon-Mann-Withney" ou encore"test
MWW" (sans spécifier à chaque fois qu'il
repose sur la somme des rangs).
Le but de ce test, identiquement au test de la somme des rangs
de Wilcoxon, est de trouver un moyen de vérifier
que deux
échantillons indépendants non nécessairement
de même
taille sont issus d'une même loi ou non (in extenso
sont issus d'une même
population ou non) mais avec une approche différente!
Remarque: Au même titre que
le test de la somme des rangs de Wilcoxon, le test de la somme
des rangs de Mann-Withney peut tout à fait être
utilisé pour
des variables ordinales (donc catégorielles mais à condition
qu'elles soient en un nombre acceptable).
Certains logiciels par ailleurs portent les choses à confusion
car ils proposent le test de la somme des rangs de Wilcoxon sous
le nom de test de de Mann-Withney... et inversement... et de plus
n'indiquent pas ou ne proposent pas
toujours le choix entre la version exacte ou approximative... Et
en plus le test de la somme des rangs de Wilcoxon et celui de la
somme des rangs signés que nous verrons plus loin n'est pas différencié....
donc attention! C'est typiquement un problème
dont la source est l'absence d'une norme ISO définissant
la terminologie et les options qui doivent être disponibles...
Pour voir en quoi ce test consiste, construisons le tableau de
rangs utilisant deux échantillons comprenant deux variables
de contrôle
et trois variables de traitement, nous avons alors:
Rangs possibles
Contrôles
|
Rangs possibles
Traitements
|
 |
1, 2
1, 3
1, 4
1,5
|
3, 4, 5
2, 4, 5
2, 3, 5
2, 3, 4
|
12
11
10
9
|
2, 3
2, 4
2, 5
|
1, 4, 5
1, 3, 5
1, 3, 4
|
10
9
8
|
3, 4
3, 5 |
1, 2, 5
1, 2, 4 |
8
7 |
4, 5
|
1, 2, 3
|
6
|
Tableau: 7.7 -
Représentation des rangs
de 3 variables de traitement et 2 de contrôle
Dont nous déduisons le tableau suivant:
Valeurs de  |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Probabilité |
 |
 |
 |
 |
 |
 |
 |
Tableau: 7.8 - Probabilités associées au test de la somme des rangs de
Wilcoxon
Maintenant imaginons que nous ayons une autre expérience à analyser
utilisant deux échantillons comprenant trois variables de
contrôle
et deux variables de traitement (le symétrique du précédent
donc!), nous avons alors:
Rangs possibles
Contrôles
|
Rangs possibles
Traitements
|
 |
3, 4, 5
2, 4, 5
2, 3, 5
2, 3, 4
|
1, 2
1, 3
1, 4
1,5
|
3
4
5
6
|
1, 4, 5
1, 3, 5
1, 3, 4
|
2, 3
2, 4
2, 5
|
5
6
7
|
1, 2, 5
1, 2, 4
|
3, 4
3, 5
|
7
8
|
1, 2, 3 |
4, 5 |
9 |
Tableau: 7.9- Représentation des rangs de 2 variables de traitement et 3 de contrôle
Dont nous déduisons le tableau suivant (le lecteur remarquera
que c'est exactement le même que le précédent en ce qui concerne
les probabilités!!):
Valeurs de  |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
Probabilité |
 |
 |
 |
 |
 |
 |
 |
Tableau: 7.10 - Probabilités associées au test de de la somme des rangs
Wilcoxon
Eh bien l'idée du test de Mann-Withney est très simple:
Plutôt
que de tabuler des situations symétriques, il suffit de soustraire à chaque
valeur de ,
la valeur afin
que chaque tableau soit identique et qu'un des deux seul soit utile.
Voyons cela d'abord avec le premier tableau:
Rangs possibles
Contrôles
|
Rangs possibles
Traitements
|
 |
1, 2
1, 3
1, 4
1, 5
|
3, 4, 5
2, 4, 5
2, 3, 5
2, 3, 4
|
6
5
4
3
|
2, 3
2, 4
2, 5
|
1, 4, 5
1, 3, 5
1, 3, 4
|
4
3
2
|
3, 4
3, 5
|
1, 2, 5
1, 2, 4
|
2
1
|
4, 5 |
1, 2, 3 |
0 |
Tableau: 7.11- Représentation des rangs de 3 variables de traitement et 2 de contrôle
Dont nous déduisons le tableau suivant:
Valeurs de  |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
Probabilité |
 |
 |
 |
 |
 |
 |
 |
Tableau: 7.12 - Probabilités associées au test de la somme des rangs Wilcoxon
Maintenant imaginons que nous ayons une autre expérience à analyser
utilisant deux échantillons comprenant trois variables de
contrôle
et deux variables de traitement, nous avons alors en utilisant
la même
idée:
Rangs possibles
Contrôles
|
Rangs possibles
Traitements
|
 |
3, 4, 5
2, 4, 5
2, 3, 5
2, 3, 4
|
1, 2
1, 3
1, 4
1,5
|
0
1
2
3
|
1, 4, 5
1, 3, 5
1, 3, 4
|
2, 3
2, 4
2, 5
|
2
3
4
|
1, 2, 5
1, 2, 4
|
3, 4
3, 5
|
4
5
|
1, 2, 3 |
4, 5 |
6 |
Tableau: 7.13- Représentation des rangs de 2 variables de traitement et 3 de contrôle
Dont nous déduisons cette fois-ci exactement le même tableau
que précédemment:
Valeurs de  |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
Probabilité |
 |
 |
 |
 |
 |
 |
 |
Tableau: 7.14 - Probabilités associées au test de Mann-Whitney
raison pour laquelle la littérature mentionne qu'on peut prendre
celui que l'on veut!
Donc pour résumer, la variante de Mann-Whitney (dans le
cas concret ici présent il s'agit de la variante dite "variante
exacte de Mann-Whitney")
consiste à tabuler
pour les situations symétriques une variable notée définie
naturellement par:
(7.45)
notée aussi très souvent dans la littérature:
(7.46)
car alors:
(7.47)
et donc:
(7.48)
Dans les tables que l'on peut trouver dans les livres, les probabilités
sont données avec la valeur normalisée de U. Ainsi, si nous
reprenons notre exemple précédent mais avec les notations d'usage
dans la pratique (U au lieu de ):
Valeurs de U |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
Probabilité |
 |
 |
 |
 |
 |
 |
 |
Tableau: 7.15 - Probabilités associées au test de Mann-Whitney
Nous voyons que la probabilité cumulée que est
de 0.4. La table précédente se trouve dans la littérature
parfois sous la forme suivante:
 |
 |
1 |
2 |
3 |
0 |
0.250 |
0.100 |
0.050 |
1 |
0.500 |
0.200 |
0.100 |
2 |
0.750 |
0.400 |
0.200 |
3 |
1 |
0.600 |
0.350 |
4 |
|
0.800 |
0.500 |
5 |
|
0.900 |
0.650 |
6 |
|
1 |
... |
Tableau: 7.16 - Représentation classique du test de Mann-Whitney
où nous avons mis en rouge la colonne correspondant à notre exemple
( )
et en vert et gras la valeur prise comme exemple dans le paragraphe
précédent. Ensuite il convient au praticien de choisir avec ces
tableaux s'il souhaite faire un test bilatéral ou unilatéral.
Remarques:
R1. Il est important de se
rappeler que nous avons démontré par
l'exemple que nous pouvons aussi bien prendre:
(7.49)
que:
(7.50)
puisqu'ils génèrent les mêmes tableaux!
R2. est
traditionnellement noté U par les praticiens comme
nous l'avons vu, d'où le
fait que l'on retrouve dans la littérature ce test sous
le nom de "test U de
Mann-Withney" avec les tables de probabilités
associées sous
le même nom. Cependant attention à ne pas confondre avec le "test
U de Wilcoxon" appelé parfois "test
d'inversion de Wilcoxon" qui
se base sur les alternances d'apparition des valeurs des échantillons
lorsque regroupés (test qui ne sera pas développé ici).
Pour voir la version approximative (asymptotique) du test U de
Mann-Withney nous avons besoin de l'espérance et de la variance.
Pour cela, rappelons que nous avons donc vu que la somme des rangs
normalisés était
donnée par:
(7.51)
mais nous pouvons aussi utiliser comme nous l'avons
vu:
(7.52)
et puisque:
(7.53)
avec pour rappel:
(7.54)
nous avons donc:
(7.55)
La moyenne des deux U est donc la moyenne
arithmétique
de la somme. Nous avons donc:
(7.56)
Ce qui signifie que ou doit
être suffisemment différent de cette dernière moyenne pour que
l'on rejette l'hypothèse nulle comme quoi les deux échantillons
proviennet d'une même loi de distribution. Mais pour déterminer
la p-value, nous avons qu'il nous faut aussi l'écart-type.
Donc cherchons-le!
L'écart-type est le même que
pour le test de la somme des rangs de Wilcoxon (puisque le deuxième
terme dans l'expression des U est une constante dont la
variance est nulle. Ainsi, il ne reste plus que la variance de
la somme des rangs et nous avons déjà démontré plus
haut qu'elle valait:
(7.57)
Exemple:
Reprenons l'exemple fait avec le test de la somme
des rangs de Wilcoxon mais un peu modifié (pour que l'exemple
soit plus parlant) c'est-à-dire:
(7.58)
Soit groupé et ordonné:
(7.59)
Nous avons alors:
(7.60)
Donc nous pouvons choisir n'importe lequel pour
le test vu que les deux U sont égaux. Si nous
regardons le tableau créé plus haut, avec
( ),
nous avons donc une probabilité cumulée de 60% que U soit égal à 3.
Donc nous ne rejetons pas l'hypothèse nulle (en unilatéral)
comme quoi les deux échantillons proviennent de la même
distribution.
L'approximation en loi Normale donne alors:
(7.61)
Donc la probabilité cumulée est de
50% avec l'approximation Normale ce qui correspondant à une
p-value de 50%. Là encore nous ne rejetons pas l'hypothèse
nulle.
TRAITEMENT DES ÉGALITÉS
Lorsque nous procédons à un test de la somme des
rangs de type Wilcoxon-Mann-Withney ou autre, des égalités
de rangs peuvent se produire.
Reprenons pour l'exemple:
(7.62)
avec les données suivantes:
Données: |
17 |
17 |
17 |
19 |
21 |
Rang: |
? |
? |
? |
4 |
5 |
Tableau: 7.17 - Exemple de problème en cas d'égalités
Une solution conventionnelle consiste à attribuer à chaque "?" le
rang moyen. Donc dans le cas présent, nous avons:
(7.63)
Le tableau:
Rangs possibles
Contrôles
|
Rangs possibles
Traitements
|
 |
1, 2
1, 3
1, 4
1,5
|
3, 4, 5
2, 4, 5
2, 3, 5
2, 3, 4
|
12
11
10
9
|
2, 3
2, 4
2, 5
|
1, 4, 5
1, 3, 5
1, 3, 4
|
10
9
8
|
3, 4
3, 5
|
1, 2, 5
1, 2, 4
|
8
7
|
4, 5 |
1, 2, 3 |
6 |
Tableau: 7.18- Représentation des rangs de 3 variables de traitement et 2 de contrôle
devient alors dans ce cas particulier:
Rangs possibles
Contrôles
|
Rangs possibles
Traitements
|
 |
2, 2
2, 2
2, 4
2,5
|
2, 4, 5
2, 4, 5
2, 2, 5
2, 2, 4
|
11
11
9
8
|
2, 2
2, 4
2, 5
|
2, 4, 5
2, 2, 5
2, 2, 4
|
11
9
8
|
2, 4
2, 5
|
2, 2, 5
2, 2, 4
|
9
8
|
4, 5 |
2, 2, 2 |
6 |
Tableau: 7.19- Représentation des rangs de 3 variables de traitement et 2 de contrôle
où (remarquez
la petite * en haut à droite!) représente la statistique de Wilcoxon
lorsque nous sommes en présence d'égalités statistiques. La loi
de peut être
plus ou moins différente de celle de .
Effectivement:
Statistique de Wilcoxon |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Probabilité de  |
 |
 |
 |
 |
 |
 |
 |
Probabilité de  |
 |
0 |
 |
 |
0 |
 |
0 |
Tableau: 7.20- Différence des deux tests statistiques en cas d'égalité ou
non
TEST DE LA SOMME DES RANGS SIGNÉS DE WILCOXON À 1 ÉCHANTILLON
Le but du test de la "somme des
rangs signés de Wilcoxon", appelé aussi parfois "test
de la médiane de Wilcoxon", est d'utiliser une
technique non paramétrique pour vérifier la symétrie ou non
d'une distribution et donc in extenso faire une hypothèse sur
la valeur de la médiane. L'idée est à la fois simple et subtile.
Le principe et que si nous comparons les différences des
individus d'un échantillon par rapport à la médiane, nous savons
que si nous avons (par exemple) un nombre impair d'individus
tous différents (non égaux), alors nous aurons 50% des données
au-dessus et en-dessous de la médiane. Ensuite, pour contrôler
que la distribution des valeurs des individus vérifie une certaine
symétrie, l'idée (simple mais astucieuse) consiste ensuite à:
1. Calculer les différences en valeur absolue par
rapport à la médiane
2. Ranger ces différences absolues par ordre croissant et leur
assigner leur rang respectif
3. Calculer la somme des rangs des différences qui à la
base sont négatives
4. Calculer la somme des rangs des différences qui à la
base sont positives
et si l'échantillon a une distribution symétrique
(donc la médiane est confondue alors avec la moyenne), il devrait
y avoir une somme des rangs négatifs qui
n'est pas statistiquement significativement différente de la
sommes des rangs positifs .
Au passage nous remarquons donc qu'une hypothèse
du test pour qu'il fonctionne est que la distribution statistique
soit donc symétrique!!
Remarque: Pour rappel, lors de notre étude des tests pour échantillons
indépendants de Wilcoxon ou Mann-Withney vus plus haut (qui n'ont
pas obligatoirement la même taille), nous ordonnons ensemble
les valeurs des deux échantillons et nous faisons un calcul sur
les rangs de ces valeurs. Dans les tests pour échantillons appariés
(donc de même taille), nous ordonnons les différences de valeurs
(pas les valeurs!) et nous travaille sur les rangs des différences.
Selon l'idée (principe) exposé plus haut, la somme des rangs
qui portent le signe – vaut alors en moyenne:
(7.64)
Or, nous avons déjà démontré que l'espérance de la loi binomiale
est:
(7.65)
Et comme dans notre cas N vaut 1 (une seule valeur...)
et p vaut ½ (une chance sur deux d'avoir un signe négatif),
il vient immédiatement en utilisant les démonstrations du chapitre
de Suites Et Séries:
(7.66)
et pour la variance en utilisant aussi les résultats du chapitre
Suites Et Séries:
(7.67)
et à nouveau en utilisant la variance de la loi binomiale et
les résultats du chapitre Suites Et Séries:
(7.68)
Évidemment la somme des rangs des différences négatives (respectivement
positif) sera au minimum nul et vaudra au maximum .
Donc l'espérance dans le cas d'un test bilatéral ne doit pas être
trop proche d'une de ces deux valeurs extrêmes.
Dans le cas où n est assez grand (supérieur à une trentaine),
nous pouvons utiliser l'approximation de la loi Normale centrée
réduite pour la variable:
(7.69)
où est
donc la somme des rangs de signe négatifs.
Enfin signalons qu'empiriquement si des différences par rapport à la
médiane sont nulles, elles ne seront pas prises en compte dans
les rangs. Si des différences sont égales nous prendrons un rang
moyen...
Exemple:
Commençons avec le cas à un échantillon comparé à sa médiane
expérimentale (à l'opposé de la comparaison à une médiane hypothétisée
lorsque nous considérons a priori la distribution symétrique
et unimodale). Considérons que nous avons mesuré les valeurs
suivantes pour le diamètre d'une pièce:
39, 20.2, 40, 32.2, 30.5, 26.5, 42.1, 45.6,
42.1, 45.6, 42.1, 29.9, 40.9
Nous souhaitons donc savoir si la médiane expérimentale calculée
(valant 40 dans le cas présent) de cet échantillon peut ne pas être
rejeté comme indicateur central à un niveau de confidence de
5% en bilatéral (ce qui sera le cas si le nombre de différences
positifs et négatifs est assez équilibré). Nous construisons
alors le tableau suivant:
Mesures
|
Différence
|
Valeur absolue
|
Rang
|
R+
|
R-
|
39
|
-1
|
1
|
2
|
|
2
|
20.2
|
-19.8
|
19.8
|
11
|
|
11
|
40
|
0
|
0
|
-
|
|
|
32.2
|
-7.8
|
7.8
|
6
|
|
6
|
30.5
|
-9.5
|
9.5
|
8
|
|
8
|
26.5
|
-13.5
|
13.5
|
10
|
|
10
|
42.1
|
2.1
|
2.1
|
4
|
4
|
|
45.6
|
5.6
|
5.6
|
6.5
|
6.5
|
|
42.1
|
2.1
|
2.1
|
4
|
4
|
|
45.6
|
5.6
|
5.6
|
6.5
|
6.5
|
|
42.1
|
2.1
|
2.1
|
4
|
4
|
|
29.9
|
-10.1
|
10.1
|
9
|
|
9
|
40.9
|
0.9
|
0.9
|
1
|
1
|
|
|
|
Somme:
|
|
26
|
46
|
Tableau: 7.21- Tableau de traitement pour le test
A vue de nez l'égalité des rangs de ne s'annonce pas très bien
mais allons quand même un peu plus loin...
Remarque: Suivant les ouvrages la
somme des rangs ne donne pas la même valeur car il y a plusieurs techniques pour calculer
des rangs de valeurs qui sont identiques... Nous avons cependant
choisi celle utilisée par le logiciel Minitab qui est d'usage
dans la communauté scientifique et qui correspond à celle dont
nous avons déjà dictées les règles plus haut.
Si nous considérons que le nombre d'individus est suffisant...,
nous utilisons l'approximation (même si dans le cas présent les
conditions ne sont pas satisfaites):
(7.70)
Soit dans le cas présent:
(7.71)
et respectivement:
(7.72)
Le premier cas correspond dans l'approximation à une loi Normale à une
probabilité cumulée de 29.13 % obtenue avec la versions française
de Microsoft Excel 14.0.6123 à l'aide de
la fonction:
=LOI.NORMALE.STANDARD.N(-0.549;VRAI)
et donc à un p-value d'environ 58.26%
en bilatéral.
Le deuxième cas correspond dans l'approximation à une loi Normale à une
probabilité cumulée à 84.62% obtenue avec avec la versions française
de Microsoft Excel 14.0.6123 à l'aide de la fonction:
=LOI.NORMALE.STANDARD.N(1.02;VRAI)
ce qui correspond à une p-value d'environ 30.76 % en
bilatéral (un logiciel comme Minitab donne une p-value
en bilatéral de 32% puisqu'il ne fait pas l'approximation en
loi Normale).
Pour le deuxième cas nous sommes à la limite mais au seuil
choisi plus haut nous pouvons prudemment ne pas rejeter l'hypothèse
comme quoi 40 est dans l'intervalle de confiance de la médiane
(par ailleurs le test des signes amène à la même conclusion).
Remarque: Un logiciel comme Minitab
bien que proposant le test de Wilcoxon à 1 échantillon de la médiane donne pour médiane
la valeur de 36.5 et donne pour intervalle de confiance de la
médiane les valeurs 31.1 et 42.1. Si nous appliquons la méthode
de boostrapping présentée en détails dans le chapitre de Méthondes
Numériques nous obtenons comme médiane estimée 40 (pour moyenne
38.733) et comme intervalle 30.50 et 42.10... Bon dans tous les
cas nous arrivons de toute façon à ne pas rejeter l'hypothèse
nulle mais quand même...
TEST DE LA SOMME DES RANGS SIGNÉS DE WILCOXON POUR 2 ÉCHANTILLONS
APPARIÉS
Le "test de la somme
des rangs signés
de Wilcoxon pour 2 échantillons appariés" est basé à 100%
sur le principe du test à 1 échantillon.
La seule différence est que l'hypothèse nulle ou alternative est basée sur la
différence de la médiane des données prises deux à deux de chacun des échantillons.
Dans la majorité des cas, l'hypothèse nulle est que la médiane des différences
est nulle contre l'hypothèse alternative qu'elle est statistiquement significativement
différente
de zéro.
Comme les développements mathématiques sont les
même que pour
le test à 1 échantillon, attaquons directement par un exemple.
D'abord insistons juste que par extension, qu'une
hypothèse du test pour qu'il
fonctionne est que la distribution statistique des différences
soit donc symétrique!!
Exemple:
Nous avons 2 logiciels (L1, L2) différents à comparer
que nous voulons soumettre à 12 tâches (T1, T2, T3, ..., T12)
de calculs spécifiques mais identiques pour chacun des logiciels.
Nous souhaiterions savoir si les logiciels ont un temps de traitement
statistiquement significativement
différent ou non et si oui lequel est le plus performant (il
s'agit des mêmes algorithmes mais le second logiciel a subi une
modifiction par rapport au premier)!
Nous avons alors le tableau suivant où le temps
est en minutes et où les différences sont
notées :
Tâche
|
L1
|
L2
|

|

|
Rang
|
R+
|
R-
|
T1
|
24.0
|
23.1
|
0.9
|
0.9
|
1
|
1
|
|
T2
|
16.7
|
20.4
|
-3.7
|
3.7
|
4
|
|
4
|
T3
|
21.6
|
17.7
|
3.9
|
3.9
|
5
|
5
|
|
T4
|
23.7
|
20.7
|
3.0
|
3.0
|
2.5
|
2.5
|
|
T5
|
37.5
|
42.1
|
-4.6
|
4.6
|
6
|
|
6
|
T6
|
31.4
|
36.1
|
-4.7
|
4.7
|
7
|
|
7
|
T7
|
14.9
|
21.8
|
-6.9
|
6.9
|
10
|
|
10
|
T8
|
37.3
|
40.3
|
-3.0
|
3.0
|
2.5
|
|
2.5
|
T9
|
17.9
|
26.0
|
-8.1
|
8.1
|
11
|
|
11
|
T10
|
15.5
|
15.5
|
0.0
|
0.0
|
-
|
|
|
T11
|
29.0
|
35.4
|
-6.4
|
6.4
|
9
|
|
9
|
T12
|
19.9
|
25.5
|
-5.6
|
5.6
|
8
|
|
8
|
|
|
|
|
|
Somme:
|
8.5
|
57.5
|
Tableau: 7.22- Tableau de traitement pour le test
Nous voyons déjà que le logiciel L1 est globalement
plus rapide que L2 et sans utiliser les tables exactes du test
des signes
de Wilcoxon, nous pouvons présenter que la différence est statistiquement
significative.
Si nous considérons que le nombre d'individus est suffisant...,
nous utilisons l'approximation (même si dans le cas présent les
conditions ne sont pas satisfaites):
(7.73)
Soit dans le cas présent:
(7.74)
et respectivement:
(7.75)
Le premier cas correspond dans l'approximation à une loi Normale à une
probabilité cumulée de 0.84% obtenue avec avec la versions française
de Microsoft Excel 14.0.6123 à l'aide de la fonction:
=LOI.NORMALE.STANDARD.N(-2.392;VRAI)
et donc à un p-value d'environ 0.42%
en bilatéral.
Le deuxième cas correspond dans l'approximation à une loi Normale à une
probabilité cumulée à 92.69% obtenue avec avec la versions française
de Microsoft Excel 14.0.6123 à l'aide de la fonction:
=LOI.NORMALE.STANDARD.N(1.454;VRAI)
ce qui correspond à une p-value d'environ
3.649 % en bilatéral (un logiciel comme Minitab donne une p-value
en bilatéral de 3.3%).
Remarque: Avec un logiciel comme Minitab
15.1.2 qui ne propose pas le test de Wilcoxon pour échantillons appariés
mais pour lequel il existe une astuce pour l'exécuter quand même,
nous obtenons un p-value de 3.3%. D'autres logiciels donnent
une p-value toujours inférieure à 5% (mais les valeurs
différent d'un logiciel à l'autre...).
TEST DE KRUSKAL-WALLIS
Le test de Kruskal-Wallis un test non paramétrique
souvent assimilé (un peu rapidement...) à une
ANOVA non paramétrique à une
voie pour comparer si deux populations ou plus ont même médiane
(hypothèse nulle) à la différence qu'il ne nécessite donc pas
les hypothèses nécessaires au fonctionnement de l'ANOVA. Quand
plusieurs populations comparées passent à travers ce test, ce
dernier ne dit pas quelle population est statistiquement significativement
différente
mais uniquement qu'il y en a au moins une qui l'est. En réalité,
comme nous allons le démontrer, le test de Kruskal-Wallis n'est
qu'une extension du test U de Mann-Whitney vu plus haut
pour un nombre de populations supérieur ou égal à trois.
Pour étudier ce test, nous allons supposer que
nous n'avons que deux populations et nous allons en faire une
généralisation intuitive.
Cette démarche est celle qu'aurait utilisée Wilcoxon avant que
Kruskal et Wallis n'en fassent la démonstration générale rigoureuse.
Pour étudier ce test, rappelons d'abord que (relations
dont l'origine et in extenso la démonstration ont déjà expliquées
lors de notre étude du test de Mann-Withney vu plus haut) la
moyenne de la somme des rangs et l'écart-type de la somme des
rangs sont donnés par:
(7.76)
dans le cas où il n'y pas de valeurs doubles.
Sous cette hypothèse,
rappelons que peut être
assimilé au rang de la valeur médiane (dans le cas d'un nombre
impair de mesures).
Rappelons que la moyenne des tirages de n valeurs
sans remplacement parmi N sera proche d'une loi Normale,
et nous avons déjà démontré tout au début de ce chapitre que:
(7.77)
et que si la population n'est pas très grande,
la variance doit être
corrigée par le facteur de correction sur population finie que
nous avions déjà aussi démontré:
(7.78)
Dès lors, il vient:
(7.79)
Nous avons alors dans le cas qui nous concerne avec les rangs
(la variance des rangs étant la variance vraie: il n'y a pas
d'estimateur!):
(7.80)
Maintenant, de manière à former un
variable Normale centrée réduite Z nous pouvons centrer et réduire
la variable aléatoire
obtenue
par échantillonnage en écrivant:
(7.81)
où est
donc la moyenne de la somme des rangs d'un échantillon
de la population. Et au fait toute l'idée astucieuse du test
de Kruskal-Wallis se trouve ici: la distribution statistique
de la moyenne de la somme des rangs d'un grand nombre d'échantillons
de N valeurs suit approximativement une loi Normale (revoir
notre étude des limites des tirages sans remise)!
Prenons le carré :
(7.82)
L'approximation par la loi du Khi-deux n'étant
valable que si n est assez grand comme nous en avons déjà parlé en
détails lors de notre étude du test d'ajustement du Khi-deux.
Et donc la parenthèse de la première égalité est égale
au carré de
l'écart du rang de la médiane. Raison pour laquelle on dit souvent
qu'il s'agit d'un test de la médiane (mais c'est un raccourci
abusif).
Avant de continuer, insistons bien sur le fait
que le scénario
dans lequel nous nous trouvons est celui d'un tirage d'un échantillon n parmi N,
ce qui est équivalent à se retrouver avec deux échantillons (un
de taille n et l'autre de taille N-n) de même loi
(provenant in extenso d'une même population). Il vient alors
que (relations que nous allons utiliser un peu plus loin):
(7.83)
et par extension du cas à un échantillon, si nous notons la
somme des rangs des nombres de l'échantillon i, nous avons
aussi:
(7.84)
Il s'ensuit que si nous notons pour la suite où R est
donc la somme des rangs de l'échantillon ,
nous avons:
(7.85)
Si nous écrivons maintenant la relation démontrée plus haut:
(7.86)
sous la forme suivante (il s'agit d'un développement astucieux
en marche arrière... à partir de la troisième ligne):

(7.87)
et nous retrouvons donc à la fin le fait que nous
travaillions depuis le début avec deux échantillons, un de taille n et
donc l'autre (in extenso par tirage) de taille N-n.
Le résultat précédent (qui était celui recherché
depuis le début) peut être
généralisé sous
la forme suivante appelée "test H de
Kruskal-Wallis" à un
niveau de confiance donné en unilatéral (parfois cette relation
est écrite sans les parenthèses pour la sommation ce qui peut
prêter à une mauvaise lecture):
(7.88)
et si tous les sont égaux,
nous retrouvons cette relation sous la forme fréquente:
(7.89)
L'approximation suivant une loi du Khi-deux est
cependant délicate
lorsque la taille des échantillons (c) est petite (se
référer à notre étude
de la loi du Khi-deux).
Exemple:
Reprenons l'exemple de l'article original de Kruskal-Wallis.
Nous considérons que nous avons trois machines à l'origine identiques
mais dont deux ont subi quelques modifications. Nous avons
mesuré la production journalière un certain nombre de fois et
avons obtenu le tableau suivant:
Standard |
Rang |
Modifiée 1 |
Rang |
Modifiée 2 |
Rang |
Somme |
340 |
5 |
339 |
4 |
347 |
10 |
|
345 |
9 |
333 |
2 |
343 |
7 |
|
330 |
1 |
344 |
8 |
349 |
11 |
|
342 |
6 |
|
|
355 |
12 |
|
338 |
3 |
|
|
|
|
|
----------------------------------------------------------- |
n |
5 |
|
3 |
|
4 |
12 |
R |
24 |
|
14 |
|
40 |
78 |

|
115.2 |
|
65.33 |
|
400 |
580.53 |
Tableau: 7.23 - Tableau d'exemple pour le test de Kruskal-Wallis
Nous avons alors bien:
(7.90)
et:
(7.91)
Or, nous avons:
(7.92)
Dans le cas présent, à un niveau de 5%, nous
sommes donc à la
limite avec l'approximation par une loi de Khi-deux. Comme l'ont
montré Kruskal et Wallis, une simulation par Monte-Carlo donne
une p-value de 0.049.
Bref, dans cette situation il conviendrait plutôt
de rejeter l'hypothèse nulle comme quoi les productions sont
similaires. Et donc privilégier le fait que celles-ci soient
plutôt différentes.
Une recommandation et de refaire le test par paire des mesures
pour voir ce qui est statistiquement significativement différent
deux par deux.
TEST DE FRIEDMAN
Le test de Friedman, recommandé par la norme NF
ISO 8587 pour l'analyse sensorielle (test de classement), considère
une expérience
avec deux facteurs (le premier étant considéré comme le traitement
et le second comme les blocs de tests au même titre que l'ANOVA à deux
facteurs contrôlés sans répétition) que l'on analyse à l'aide
des rangs car les valeurs des mesures ne satisfont pas les conditions
d'application d'ANOVA. Cependant, au contraire de l'ANOVA, le
test de Friedman s'applique à des données appariées comme nous
allons le voir de suite.
Associons, comme nous l'avons déjà fait à plusieurs
reprises, la théorie à un exemple en partant du tableau suivant
où huit
sujets (blocs) B sous hypnose ont été soumis à quatre émotions
(traitements) T. Leur potentiel électrique épidermique
a été mesuré (en millivolts) dans chaque cas (et l'ordre des
traitements a été randomisé):
Émotion |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
Peur |
23.1 |
57.6 |
10.5 |
23.6 |
11.9 |
54.6 |
21.0 |
20.3 |
Joie |
22.7 |
53.2 |
9.7 |
19.6 |
13.8 |
47.1 |
13.6 |
23.6 |
Tristesse |
22.5 |
53.7 |
10.8 |
21.1 |
13.7 |
39.2 |
13.7 |
16.3 |
Calme |
22.6 |
53.1 |
8.3 |
21.6 |
13.3 |
37.0 |
14.8 |
14.8 |
Tableau: 7.24 - Tableau d'exemple des mesures pour le test de Friedman
L'idée centrale et subtile est de ne pas affecter
un rang à l'ensemble
de la population des mesures comme c'est le cas pour le test
de Kruskal-Wallis (on perdrait alors le concept des blocs:
in extenso du deuxième facteur) mais bien bloc par bloc tous
supposés
donc indépendants les uns des autres.
Remarque: Nous ne traiterons pas (au
même titre
que lors de notre étude du test de Kruskal-Wallis)
de la situation où des
mesures sont à égalité avec d'autres dans un même bloc, les
démonstrations
actuelles n'étant pas vraiment convaincantes.
Donc, à chaque valeur du
tableau nous allons maintenant associer le rang correspondant à chaque
traitement. Ce qui donnera:
Émotion |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
Peur |
4 |
4 |
3 |
4 |
1 |
4 |
4 |
3 |
Joie |
3 |
2 |
2 |
1 |
4 |
3 |
1 |
4 |
Tristesse |
1 |
3 |
4 |
2 |
3 |
2 |
2 |
2 |
Calme |
2 |
1 |
1 |
3 |
2 |
1 |
3 |
1 |
Tableau: 7.25 - Tableau d'exemple des rangs pour le test de Friedman
Bon maintenant que nous avons construit une sorte tableau d'ANOVA à deux
facteurs contrôlés sans répétition non paramétrique que faisons-nous?
Quelle est l'idée? Eh ben l'idée de base est la même que le test
de Kruskal-Wallis: nous allons utiliser la propriété de la moyenne
de la somme des rangs mais tout en ayant en tête que cette fois-ci
la numérotation ne s'est pas faite sur l'ensemble des mesures
du tableau mais bloc par bloc.
Dans le cadre de notre exemple particulier nous avons donc:
Émotion |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
|
|
Peur |
4 |
4 |
3 |
4 |
1 |
4 |
4 |
3 |

|

|
Joie |
3 |
2 |
2 |
1 |
4 |
3 |
1 |
4 |

|

|
Tristesse |
1 |
3 |
4 |
2 |
3 |
2 |
2 |
2 |

|

|
Calme |
2 |
1 |
1 |
3 |
2 |
1 |
3 |
1 |

|

|
et en cas de non influence des traitements, nous nous attendons à avoir:
(7.93)
ou aussi (c'est équivalent):
(7.94)
S'il y a non influence des traitements ces quatre dernières
valeurs devraient être égales et fluctuer autour de:
(7.95)
Nous pouvons pressentir que la fluctuation des autour
de doit
suivre une loi Normale centrée s'il y a vraiment non influence
(il existe une démonstration de cela dans l'article original
de Friedman mais elle comporte des lacunes par moments et donc
nous nous abstiendrons de la présenter). Nous pouvons également
réduire
la loi Normale telle que:
(7.96)
Il n'est pas toujours intuitif que l'erreur standard soit obtenue
par la division de la racine de B (du nombre de blocs)
car la majorité des praticiens ont pour intuition de diviser
par la racine T du nombre de traitements lorsqu'ils étudient
l'aspect théorique du test de Friedman. Mais cela peut se vérifier
avec une application numérique soit en se rappelant que le calcul
de la variance se
fait à partir des B rangs d'un traitement donné, rangs
dont les valeurs (dans l'exemple ci-dessus ces valeurs sont comprises
8 fois entre 1 et 4) sont bien évidemment supposées pour un traitement
donné indépendantes et identiquement distribuées.
Nous avons donc:
(7.97)
Contrairement au test de Kruskal-Wallis, nous ne faisons pas
d'échantillonnage, donc nous ne devons pas corriger l'écart-type à l'aide
du facteur de correction sur population finie (fcp) pour
diminuer sa valeur.
L'idée de Friedmann (du moins c'est ainsi que nous allons le
présenter) est de dire que l'écart-type de la somme des rangs
des traitements obtenue de façon identique que lors du test de
Kruskal-Wallis (dont l'origine a été détaillée lors de notre étude
du test de Mann-Withney):
(7.98)
n'est cette fois-ci qu'un estimateur de l'écart-type vrai et
qu'il faut utiliser la relation entre l'estimateur non biaisé et
biaisé pour corriger cette estimation (relation démontrée lors
de notre étude des estimateurs):
(7.99)
Dès lors:
(7.100)
où nous avons retiré un degré de liberté au Khi-deux pour la
raison déjà rencontrée maintes fois dans le présent chapitre.
Soit après quelques simplifications élémentaires
nous obtenons le "test Q de Friedman" (qui
est donc un test non paramétrique):
(7.101)
Pour en revenir à notre exemple il vient alors:
(7.102)
La valeur critique de au
seuil de 5% est de 7.65. Donc nous ne rejetons pas l'hypothèse
comme quoi les traitements n'ont aucune influence (absence de
différence entre les traitements). La probabilité cumulée correspondant à 7.65
(donc la p-value) est de 9%.
STATISTIQUES DES VALEURS EXTRÊMES
La statistique des valeurs extrêmes est un domaine très important
dans la finance et l'ingénierie de la qualité (pour ne citer que
les deux exemples les plus connus) qui permet d'étudier l'interpolation
et la justification asymptotique des distributions. Comme le lecteur
va le voir, cette statistique constitue de par sa construction
un sous-domaine des statistiques d'ordre.
Remarque: Un exemple d'application
pratique mondialement connu est son utilisation dans des résultats
qui vont suivre dans le cadre des cartes de contrôle de la qualité (cf.
chapitre de Génie Industriel).
Soient des
variables aléatoires supposées indépendantes et identiquement distribuées
de loi F et de densité f. Rappelons que nous
définissons la statistique d'ordre i notée par:
(7.103)
En posant:
(7.104)
Les variables et définissent
les statistiques d'ordres extrêmes et leur écart:
(7.105)
et dite "déviation extrême".
Nous accepterons comme triviale la relation:
(7.106)
Déterminons maintenant la fonction de répartition de :
(7.107)
car dire que équivaut à dire
que pour chaque nous
avons (pas
facile à deviner qu'il faut avoir cette approche...).
Nous avons alors puisque les variables sont indépendantes (cf.
chapitre de Probabilités):
(7.108)
et par suite nous avons évidemment la fonction de distribution:
(7.109)
Respectivement en se basant sur la même idée:
(7.110)
et par suite nous avons évidemment la fonction de distribution:
(7.111)
Il vient alors:
(7.112)
en ayant utilisé la linéarité de l'espérance et le fait que pour
les deux fonctions de distribution nous travaillons sur la même
variable aléatoire.
En faisant une intégration par parties (cf.
chapitre de Calcul Différentiel et Intégral):
(7.113)
en n'oubliant pas que et .
Maintenant considérons le cas particulier où la fonction de répartition
suit une loi Normale centrée réduite:
(7.114)
Nous avons alors:
(7.115)
Faisons un changement de variables:
(7.116)
Nous avons alors:
(7.117)
et nous trouvons alors la relation donnée (99% du temps sans
démonstrations) dans les livres de statistiques des procédés:
(7.118)
appelée "constante de Hartley" et donc:
(7.119)
Cette constante est donc impossible à ce jour à calculer formellement.
Soit il faut passer par des approximations en série de Taylor des
termes de l'intégrale, ce qui devient un cauchemar pour n grand,
soit par un calcul utilisant la méthode de Monte-Carlo (cf.
chapitre de Méthodes Numériques). Comme c'est relativement long à implémenter
dans un tableur, les ingénieurs qualité préfèrent utiliser des
tables dans lesquelles nous trouvons par exemple:
Valeurs de n |
Valeurs de avec
distribution normale |
2 |
1.128 |
3 |
1.693 |
4 |
2.059 |
5 |
2.326 |
6 |
2.534 |
7 |
2.704 |
8 |
2.847 |
9 |
2.970 |
10 |
3.078 |
... |
... |
Tableau: 7.26- Valeurs tabuleés de la constante de Hartley
Voyons maintenant la variance de l'étendue en utilisant toujours
la relation de Huyghens:
(7.120)
Le calcul de est
très peu digeste (du moins je n'ai rien trouvé de
satisfaisant aux exigences de Sciences.ch), la plus petite démonstration
complète
tient sur 3 à 4 pages A4 et n'apporte formellement rien
puisque nous finissons sur une intégrale non calculable à la
main (par contre si quelqu'un a une démonstration simple,
détaillée et élégante qu'il n'hésite
pas à se manifester!). C'est pour cette raison qu'après
avoir posé:
(7.121)
si nous écrivons comme le font de nombreux ouvrages techniques:
(7.122)
il vient alors que:
(7.123)
Mais comme nous ne connaissons pas l'estimateur du maximum de
vraisemblance non biaisé de l'écart-type ,
nous allons utiliser la relation démontrée:
(7.124)
Pour avoir finalement un estimateur biaisé de la variance de
l'étendue:
(7.125)
Voici quelques valeurs tabulées de :
Valeurs de n |
Valeurs de
avec distribution normale |
2 |
0852 |
3 |
0.888 |
4 |
0.879 |
5 |
0.864 |
6 |
0.848 |
7 |
0.833 |
8 |
0.819 |
9 |
0.807 |
10 |
0.797 |
... |
... |
Tableau: 7.27- Valeurs tabuleés de la constante d3
TEST (DE L'ÉTENDUE) DE TUKEY
Supposons que nous avons variables
aléatoires centrées réduites et indépendantes. Et notons U une
variable aléatoire suivant une loi du Khi-deux à v degrés
de liberté.
Définissons maintenant pour des raisons qui paraîtront évidentes
un peu plus loin, "l'étendue Studentisée" (l'origine
du nom provient de sa ressemblance avec la définition de la
loi de Student) par:
(7.126)
et tentons de déterminer si cette relation suit une loi connue
et une application possible (nous retrouvons au numérateur ce que
nous avions défini plus haut comme étant la "déviation extrême" mais
avec une autre notation).
Pour cela, montrons que nous tombons sur la définition ci-dessus
en considérant un cas un peu plus général où nous avons variables
aléatoires indépendantes qui suivent une loi Normale et
avec l'écart type :
(7.127)
et étudions le rapport:
(7.128)
Maintenant, procédons aux transformations classiques déjà vues
et démontrées et utilisées maintes fois depuis le début de ce chapitre:
(7.129)
Et nous avons alors:
(7.130)
Donc voilà déjà pour la première étape. Pour l'instant, même
si nous ne savons toujours pas si cette définition loi suit une
distribution connue, nous pouvons déjà poser la définition très
intéressante
suivante (le terme de gauche est toujours positif):
(7.131)
ou autrement écrite:
(7.132)
et donc nous pouvons calculer quelle est la probabilité cumulée
d'une étendue obtenue par mesures comparée à une étendue critique correspondant
directement à un seuil imposé.
Ce qui nous amène à pouvoir écrire que:
(7.133)
Maintenant, rappelons que nous avons vu plus haut que la fonction
de distribution de la déviation extrême était donnée par une relation à notre
connaissance non calculable analytiquement:
(7.134)
Donc la fonction de distribution n'est
par conséquence pas assimilable à une loi connue quand est
une loi quelconque. Il faut donc malheureusement tabuler cette
distribution par la méthode de Monte-Carlo (cf.
chapitre de Méthodes Numériques) ou se réferer à des
tables déjà existantes.
Maintenant pour continuer, nous faisons un crochet par l'ANOVA à un
facteur contrôlé que nous avions étudié. Rappelons d'abord que
nous
avons démontré que que pour des variables aléatoires indépendantes
et identiquement distribuées nous avions:
(7.135)
et puisque l'ANOVA un facteur contrôlé est aussi
basé sur l'hypothèse que:
(7.136)
cela implique qu'asymptotiquement les estimateurs ont la même
propriété:
(7.137)
Nous savons aussi que l'écart-type de la moyenne d'un échantillon
de l'ANOVA un facteur contrôlé est donc donné la cadre
et les hypothèses de l'ANOVA
à un facteur contrôlé par:
(7.138)
Mais dans le cadre de l'ANOVA à un facteur contrôlé,
nous avons aussi montré que
sous les hypothèses imposées, nous avions:
(7.139)
Il vient alors que:
(7.140)
est un estimateur de:
(7.141)
Et comme nous avions démontré que:
(7.142)
Il vient alors que:
(7.143)
Dès lors, nous sommes naturellement amenés à constater que la
relation que nous avons définie plus haut:
(7.144)
peut-être utilisée dans l'étude de l'ANOVA à un facteur
contrôlé sous la
forme:
(7.145)
pour faire un test préalable ou postérieur (post
hoc) à une ANOVA à un facteur contrôlé pour
vérifier l'hypothèse d'égalité des
moyennes et identifier quelles sont les moyennes aberrantes (test
de comparaisons multiples). Donc le test de Tukey est souvent accompagné du
test C de Cochran que nous avons déjà étudié plus
haut lorsque nous faisons une ANOVA à un facteur contrôlé.
Soit, dans le cadre de l'ANOVA, nous devrions rejeter l'hypothèse
d'égalité des moyennes des échantillons si:
(7.146)
ou autrement écrit:
(7.147)
Dans ce cas, il est alors quasi
immédiat
que nous pouvons construire l'intervalle de confiance suivant:
(7.148)
Il faut savoir maintenant qu'il existe un test post-hoc
de l'ANOVA à un facteur qui lors de l'application de:
(7.149)
ne va pas prendre les deux moyennes les plus extrêmes
mais va comparer toutes les moyennes deux à deux (et pourquoi
pas après tout!) avec la plus grande moyenne (bon on pourrait
aussi s'amuser à faire toutes les combinaisons possibles comme
le font certains logiciels de statistiques). Dans
ce cas la relation à utiliser sera la même que ci-dessus à la différence
que si nous avons par exemple
une ANOVA à un facteur avec 4 niveaux nous aurons alors 3 comparaisons
deux à deux (les différences des moyennes doivent toujours être
positives). Ainsi, en imaginant que la troisième moyenne est la
plus grande et que dans l'ordre décroissant les moyennes les plus
grandes sont la 4ème, 2ème et 1ère (donc la 1ère est la plus petite)
il vient alors:
(7.150)
Cette façon de faire (d'étendre le
prinicipe de base du test de Tukey), s'appelle le "test
de Newman-keuls" ou encore
"test de Student–Newman–Keuls
(SNK)".
COEFFICIENT DE CORRÉLATION DES RANGS DE SPEARMAN
Le coefficient de corrélation des rangs de Spearman, noté est
le coefficient de corrélation de la suite ,
des rangs inspiré naturellement du coefficient de corrélation linéaire
de Pearson vu au début de ce chapitre:
(7.151)
Prenons un exemple avant de nous attaquer à l'aspect théorique.
Des mesures d'une population de taille 10 (nous avons repris les
mêmes valeurs que celles prises pour les études des tests de rangs
non paramétriques précédents):
X |
Y |
5.7 |
8.1 |
3.2 |
5.5 |
8.4 |
3.4 |
4.1 |
7.9 |
6.9 |
4.6 |
5.3 |
1.6 |
1.7 |
8.5 |
3.2 |
7.1 |
2.5 |
8.7 |
7.4 |
5.7 |
Tableau: 7.28- Exemple de mesures
avec leurs rangs respectifs selon l'idée d'approche de Kendall
(idée simple mais à laquelle il fallait penser!):
X |
R(i) |
Y |
S(i) |
5.7 |
7 |
8.1 |
8 |
3.2 |
3 |
5.5 |
4 |
8.4 |
10 |
3.4 |
2 |
4.1 |
5 |
7.9 |
7 |
6.9 |
8 |
4.6 |
3 |
5.3 |
6 |
1.6 |
1 |
1.7 |
1 |
8.5 |
9 |
3.2 |
4 |
7.1 |
6 |
2.5 |
2 |
8.7 |
10 |
7.4 |
9 |
5.7 |
5 |
Tableau: 7.29- Valeurs mesurées et rangs respectifs
Maintenant démontrons que la relation donnée précédemment se
simplifie drastiquement car les valeurs de R, comme celles
de S, parcourent la suite des n premiers entiers.
Or nous avons démontré dans le chapitre de Suites et Séries que:
(7.152)
donc:
(7.153)
Il vient alors:
(7.154)
Nous avons également démontré dans le chapitre de Suites et Séries
que:
(7.155)
donc:
(7.156)
Il vient alors:
(7.157)
Maintenant jouons un peu pour obtenir une expression encore plus
simplifiée en observant que:
(7.158)
il vient alors que:
(7.159)
Nous avons alors:
(7.160)
Or, nous avons démontré que:
(7.161)
Dès lors:
(7.162)
Ainsi, nous trouvons la fameuse relation disponible dans tous
les livres de Statistiques au final:
(7.163)
Le coefficient de Spearman reprend les propriétés essentielles
du coefficient de Pearson à savoir que:
(7.164)
et prend la valeur 0 lorsque les variables sont indépendantes
(en n'oubliant pas les subtilités importantes y relatives déjà mentionnées
lors de notre étude du coefficient de Pearson).
À remarquer que ce coefficinet semble défini comme pour une corrélation
d'une paire de variables (je n'en ai jamais vu de généralisation).
Remarque: Toujours conséquence du
fait qu'il soit non paramétrique,
le coefficient de corrélation de Spearman peut traiter les variables
intrinsèquement ordinales: un indice de satisfaction, une appréciation
ou une note attribuée, etc.
CALCULS D'ERREURS/INCERTITUDES
Il est impossible de connaître (mesurer) la valeur exacte
d'une grandeur physique expérimentalement, il est très
important donc d'en déterminer l'incertitude.
Nous appelons bien évidemment "erreur", la différence
entre la valeur mesurée et la valeur exacte. Cependant,
comme nous ignorons la valeur exacte, nous ne pouvons pas connaître
l'erreur commise quand même.... Le résultat est donc
toujours incertain. C'est la raison pour laquelle nous parlons
des "incertitudes de mesure".
Nous distinguons deux types d'incertitudes:
1. Les "erreurs systématiques": elles affectent le résultat
constamment et dans le même sens (erreurs des appareils de
mesures, limites de précision, etc.). Il faut alors éliminer,
ou corriger le résultat, si possible !
2. Les "erreurs accidentelles" (statistiques): il faut alors
répéter les mesures, calculer la moyenne et évaluer
l'incertitude en utilisant les outils de statistique.
Le deuxième type d'erreurs fait un très gros usage
de tous les outils statistiques que nous avons présentés
jusqu'à maintenant. Nous ne reviendrons donc pas dessus
et nous nous concentrerons alors uniquement sur quelques nouveaux
concepts.
INCERTITUDES ABSOLUES ET RELATIVES
Si la vraie valeur d'une grandeur est x (supposée
connue théoriquement)
et la valeur mesurée est ,
alors est "l'incertitude
absolue" (l'incertitude due aux appareils de mesure) ou
"erreur absolue".
L'intervalle de confiance de la mesure est alors notée:
(7.165)
ou:
(7.166)
"L'incertitude relative" ou
"erreur relative" est quant à elle définie
par:
(7.167)
L'incertitude absolue permet de connaître l'approximation du dernier
chiffre significatif de celle-ci. Par contre, lorsque nous désirons
comparer deux mesures ayant des incertitudes absolues afin de déceler
laquelle a la plus grande marge d'erreur, nous calculons l'incertitude
relative de ce nombre en divisant l'incertitude absolue par le
nombre, et transformons en pourcentage.
En d'autres termes, l'incertitude relative permet d'avoir une
idée de la précision de la mesure en %. Si nous faisons
une mesure avec une incertitude absolue de 1 [mm], nous
ne saurons pas si c'est une bonne mesure ou non. Ça dépend
si nous avons mesuré la taille d'une pièce de monnaie,
de notre voisin, de la distance Paris-Marseille ou de la distance
Terre-Lune. Bref, ça dépend de l'incertitude relative
(c'est-à-dire du rapport de l'incertitude absolue sur la
mesure).
ERREURS STATISTIQUES
Dans la plupart des mesures, nous pouvons estimer l'erreur due à des
phénomènes aléatoires, appelée "erreur
aléatoire", par une série de n mesures et
ce à l'opposé de "l'erreur
systématique" qui est la part non aléatoire
de l'erreur.
L'erreur aléatoire permet d'introduire les notions de:
- Répétabilité: qui est définie comme
l'étroitesse de l'accord entre les résultats de mesurages
successifs d'une même grandeur, effectués avec la
même méthode, par le même opérateur,
avec les mêmes instruments de mesure, dans le même
laboratoire, et à des intervalles de temps assez courts
(voir plus un peu plus bas un traiement et une définition
plus rigoureuse conforme aux normes internationales).
- Reproductibilité (parfois appelé "justesse"):
qui est définie comme l'étroitesse de l'accord entre
les résultats de mesurages successifs d'une même grandeur,
dans le cas où les mesurages individuels sont effectués: suivant différentes méthodes, au moyen de différents
instruments de mesure, par différents opérateurs
dans différents laboratoires.
Ces deux notations sont toujours regroupées sous le sigle "R&R" ou
"Étude R&" dans l'industrie.
En général,
l'accord est moins bon quand il s'agit de reproductibilité.
Remarque: Il existe des logiciels
informatiques basés sur l'ANOVA
à deux facteurs avec répétition comme Minitab
qui générent des
rapports très détaillés pour les analyses
R&R.
Ces deux types d'erreurs peuvent être illustrés
par le tir à la cible de façon plus générale:
Figure: 7.3 - Types d'erreurs en ingénierie de laboratoire
Comme nous l'avons vu plus haut, la valeur moyenne arithmétique
sera alors:
(7.168)
et l'écart moyen (estimateur biaisé démontré plus
haut):
(7.169)
et l'écart quadratique moyen ou écart-type (estimateur
sans biais):
(7.170)
et nous avions démontré que l'écart-type
de la moyenne était donné par:
(7.171)
et comme nous l'avons vu, après un grand nombre de mesures
indépendantes, la distribution des erreurs sur une mesure
suit une loi Normale telle que nous puissions écrire (si
nous n'avons pas assez de mesures, nous utiliserons l'I.C. basé sur
la loi de Student):
(7.172)
bref nous pouvons réutiliser tous les outils
statistiques vus jusqu'ici dans le domaine de la mesure en laboratoire
ou ailleurs!
Le résultat d'une mesure doit ainsi comporter
en toute rigueur 4 éléments. Par exemple:
(7.173)
où nous avons:
1. La valeur numérique avec un nombre correct de décimales
2. Unité de la mesure selon le standard du système
international
3. Incertitude élargie de (intervalle
de confiance)
4. La valeur entière du k utilisée pour
l'intervalle de confiance.
RÉPÉTABILITÉ
La répétabilité r, mesure de l'écart probable entre deux
mesurages sur des objets de même nature, dans un même laboratoire,
sous des conditions opératoires semblables, est définie normativement
(dans les normes ISO 5725:1987 et AFNOR NF X 06-041 Fidelité des
méthodes d'essai) dans le cas monodimensionnel par:
(7.174)
où p est une probabilité élevée, généralement égale à 95%
et deux
variables indépendantes et identiquement distribuées selon une
loi Normale d'espérance et variance inconnues .
De par la stabilité de la loi Normale, il vient alors:
(7.175)
Or, nous avons vu au début de ce chapitre dans le cadre
de l'étude de l'intervalle de confiance de la moyenne que:
(7.176)
Donc in extenso:
(7.177)
et dès lors en utilisant les tables, nous avons:
(7.178)
Et donc:
(7.179)
Soit avec la notation des normes pour laboratoires:
(7.180)
Mais dans le cas présent, nous avons un variance doublée. Donc
il vient:
(7.181)
Nous retrouvons dans la relation disponible dans la norme avec
le fameux coefficient de 2.77. Évidemment après il est évident
que la valeur de r doit être minimisée!
PROPAGATION DES ERREURS
Soit une mesure et une
fonction de x. Quelle est l'incertitude sur y si
nous connaissons uniquement l'incertitude d'un appareil de mesure
mais qui ne serait pas donnée sous forme d'écart-type
statistique?
Dans ce type de situation nous parlons de "mesure
indirecte". C'est typiquement le cas si nous voulons mesurer
une intensité en mesurant cette dernière indirectement en faisant
le ratio du voltage par la résistant utilisée pour la mesure. Il
est effectivement évident que dans cette dernière situation nous
ne pouvons pas faire la somme de l'incertitute du voltage et de la
résistant car le système est alors inhomogène au niveau des unités.
Lorsque est
petit, f(x) est remplacé au voisinage
de x par sa tangente (il s'agit simplement de la dérivée
bien sûr):
(7.182)
mais si y dépend de plusieurs grandeurs x, z, t mesurées
avec les incertitudes :
(7.183)
l'erreur maximale possible est alors la différentielle
totale exacte (cf. chapitre de Calcul Différentiel
Et Intégral):
(7.184)
Ce que nous notons aussi souvent comme étant la somme
des dérivées partielles avec leur incertitude respective:
(7.185)
Qui donne alors la "loi de propagation" de la problématique étudiée.
La dérivée partielle en facteur de l'incertitude est dans le domaine
de la science de la mesure, appelée "coefficient
d'incertitude".
Ce qui conduit à:
(7.186)
Il apparaît ainsi clairement qu'une opération mathématique
ne peut améliorer l'incertitude sur les données.
Remarque: Le résultat d'une
multiplication, d'une division, d'une soustraction ou d'une addition
est arrondi à autant de chiffres significatifs que la donnée
qui en comporte le moins.
Évidemment cette loi de propagation (linéaire) n'est valable que
dans un intervalle ou la fonction peut être approximée linéaire.
Il
faut
donc être prudent quant à son utilisation! Sinon quoi il faut prendre
une approximation en série de Taylor d'ordre plus élevés.
Si l'incertitude de l'appareil de mesure est donnée sous
forme statistiques (écart-type), il est évident dès
lors que nous allons utiliser les propriétés de la
variance déjà vues au début de ce chapitre...
pour des cas simples.
CHIFFRES SIGNIFICATIFS
Dans les petites écoles (et aussi les plus grandes parfois),
il est demandé de transformer une mesure exprimée
en une certaine unité en une autre unité.
Par exemple, en prenant les tables, nous pouvons avoir le type
de conversion suivante:
(7.187)
Vient alors la question suivante (que l'élève peut
avoir oublié...). Au départ d'une mesure dont la
précision est de l'ordre de 1 [lb] (donc de l'ordre
de 0.5 [kg]), une simple conversion d'unité pourrait-elle
amener à une précision au 1/10 [mg] près
?
De cet exemple il faut donc retenir qu'une marge d'incertitude
est associée à toute valeur mesurée et à toute
valeur calculée à partir de valeurs mesurées.
Dans les sciences exactes, tout raisonnement, toute analyse doit
prendre cette incertitude en compte.
Mais pourquoi des chiffres sont-ils significatifs et d'autres
pas alors ? Parce qu'en sciences, nous ne rapportons que ce qui
a objectivement été observé (principe d'objectivité).
En conséquence, nous limitons l'écriture d'un nombre
aux chiffres raisonnablement fiables en dépit de l'incertitude: les chiffres significatifs. La précision que des chiffres
supplémentaires sembleraient apporter est alors illusoire.
Il faut alors savoir arrondir selon des règles et conventions:
- Lorsque le chiffre de rang le plus élevé qu'on
laisse tomber est supérieur à 5, le chiffre précédent
est augmenté de 1 (exemple: 12.66 s'arrondit à 12.7).
Dans la version anglaise de Microsoft Excel 11.8346:
=ROUND(12.66;1)=12.7
- Lorsque le chiffre de rang le plus élevé qu'on
laisse tomber est inférieur à 5, le chiffre précédent
reste inchangé (exemple 12.64 s'arrondit à 12.6).
Dans la version anglaise de Microsoft Excel 11.8346:
=ROUND(12.64;1)=12.6
- Lorsque le chiffre de rang le plus élevé qu'on
laisse tomber est égal à 5, si un des chiffres qui
le suivent n'est pas nul, le chiffre précédent est
augmenté de 1 (exemple: 12.6502 s'arrondit à 12.7).
Dans la version anglaise de Microsoft Excel 11.8346:
=ROUND(12.6502;1)=12.7
- Si le chiffre de rang le plus élevé que nous laissons
tomber est un 5 terminal (qui n'est suivi d'aucun chiffre) ou qui
n'est suivi que de zéros, nous augmentons de 1 le dernier
chiffre du nombre arrondi s'il est impair, sinon nous le laissons
inchangé (exemples: 12.75 s'arrondit à 12.8 et 12.65 à 12.6).
Dans ce dernier cas, le dernier chiffre du nombre arrondi est toujours
un chiffre pair. Les tableurs ne respectent pas vraiment cette
dernière règle, effectivement avec la version anglaise
de Microsoft Excel 11.8346 nous
avons:
=ROUND(12.75;1)=12.8
=ROUND(12.65;1)=12.7
Au fait dans la pratique ces règles sont peu utilisées
car les logiciels (tableurs) n'intègrent pas des fonctions
adaptées. Il est alors d'usage d'arrondir simplement à la
valeur de la décimale la plus proche.
Les chiffres significatifs d'une valeur comprennent tous ses chiffres
déterminés avec certitude ainsi que le premier chiffre
sur lequel porte l'incertitude (ce dernier significatif occupe
le même rang que l'ordre de grandeur de l'incertitude).
Souvent, les sources de données ne mentionnent pas d'intervalle
de confiance (c'est-à-dire une indication +/-). Par exemple,
lorsque nous écrivons nous
considérons conventionnellement que l'incertitude est du
même ordre de grandeur que le rang du dernier chiffre significatif
(soit le chiffre incertain).
En fait, seul le rang décimal de l'incertitude est implicite: sa marge réelle n'est pas précisée.

- 100 Statistical tests,
Gopal K Kanji, SAGE Publications Ltd, ISBN10:
141292376X (249 pages) - Imprimé en 2006
- Applied
Multivariate Statistical Analysis (6th Edition),
Johnson Richard A. + Wichern Dean W., Pearson, ISBN10:
0131877151 (794 pages) - Imprimé en
2007
|