loadingPage en cours de chargement
    ACCUEIL | TÉLÉCHARGER | ANNONCES | CHAT | FORUM | WIKI | LIVRE D'OR | PARTENAIRES | CONTACT | BLOG | A PROPOS
 
  Rechercher
  separation
  Introduction
  Arithmétique
  Algèbre
  Analyse
  Géométrie
  Mécanique
  Électrodynamique
  Atomistique
  Cosmologie
  Chimie
  Informatique Théorique
  Maths. Sociales
  Ingénierie
  separation
  Biographies
  Références
  Liens
  separation
  Humour
  Serveur d'exercices
  separation
  Parrains
14 connectés
News News :: Erreur Erreur :: Statistiques Statistiques :: ClearType ClearType :: Imprimer Imprimer :: Bookmark and Share

Arithmétique

THÉORIE DE LA DÉMONSTRATION | NOMBRES | OPÉRATEURS ARITHMÉTIQUES
THÉORIE DES NOMBRES | THÉORIE DES ENSEMBLES | PROBABILITÉS | STATISTIQUES

7. STATISTIQUES (3/3)

Dernière mise-à-jour de ce chapitre: 27.04.2012 15:11
Version: 2.2 Revision 7 | Rédacteur: Vincent Isoz  | Avancement: ~90%
viewsvues depuis le 01.01.2012: 0

Table des matières LISTE DES SUJETS TRAITÉS SUR CETTE PAGE | MediaWiki DISCUTER DE CETTE PAGE

STATISTIQUES DE RANGS

Les statistiques de rangs, appelées aussi "statistiques d'ordre", sont définies comme l'ensemble des techniques de calculs statistiques ou d'inférence statistiques qui ont pour objectif principal de se débarrasser de la connaissance d'une distribution paramétrée et en utilisant pour cela uniquement les rangs (ordonnés) des caractéristiques mesurées. Il s'agit d'un outil très puissant et très utilisé dans la pratique pour faire de la statistique non-paramétrée!

TESTS DE RANG (NON PARAMÉTRIQUES)

Comme nous l'avons déjà mentionné plus haut, nous parlons de tests paramétriques lorsque nous stipulons que les données sont issues d'une distribution paramétrée. Dans ce cas, les caractéristiques des données peuvent être résumées à l'aide de paramètres estimés sur l'échantillon, la procédure de test subséquente ne porte alors que sur ces paramètres.

Rappelons aux lecteurs les tests le petit nombre de tests que nous avons démontrés jusqu'à maintenant (nous espérons ne pas avoir commis d'erreurs trop graves dans le listing ci-dessous):

- Test-T de Student

Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en bilatéral
Concerne:
La moyenne lorsque l'écart-type théorique est inconnu
Hypothèse:
Distribution Normale des données

- Test-p de l'intervalle de confiance de proportions

Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en bilatéral
Concerne:
La proportion de bons ou mauvais éléments dans une population.
Hypothèse:
Distribution Binomiale (et asymptotiquement) Normale des données (equation).

- Test-p de l'égalité de deux proportions

Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en unilatéral
Concerne:
L'égalité de deux proportions.
Hypothèse:
Distribution Binomiale (et asymptotiquement) Normale des données (equation).

- Test binomial exact (égalité de deux proportions) Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en bilatéral
Concerne:
L'égalité de deux proportions.
Hypothèse:
Distribution Binomiale (petit échantillon d'un grande population)
- Test du signe (de la médiane) de deux échantillons appariés Type:
Test d'hypothèse non-paramétrique de type intervalle de confiance souvent utilisé en bilatéral
Concerne:
L'égalité des signes (implicitement des différences)
Hypothèse:
Distribution Binomiale (petit échantillon d'un grande population) mais valeurs sous-jacentes continues.

- Test-T de Student de deux moyennes d'échantillons appariés

Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé unilatéral.
Concerne:
La différence de deux moyennes de deux échantillons identiques
Hypothèse:
Distribution Normale des données

- Test-Z

Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en bilatéral
Concerne:
La moyenne lorsque l'écart-type théorique est connu
Hypothèse:
Distribution Normale des données

- Test-Z de la moyenne à deux échantillons

Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en bilatéral
Concerne:
La différence de deux moyennes lorsque les écarts-types théoriques sont connus
Hypothèse:
Distribution Normale des données

- Test du khi-deux

Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en bilatéral
Concerne:
La variance théorique
Hypothèse:
Distribution Normale des données

- Test-F de Fisher

Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en bilatéral
Concerne:
La comparaison de deux variances théoriques
Hypothèse:
Distribution Normale des données

- Test-T homoscédastique

Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en unilatéral
Concerne:
L'égalité de deux moyennes
Hypothèse:
Distribution Normale des données et égalité des variances expérimentales

- Test-T hétéroscédastique

Type:
Test d'hypothèse paramétrique de type intervalle de confiance souvent utilisé en unilatéral
Concerne:
L'égalité de deux moyennes
Hypothèse:
Distribution Normale des données et non-égalité des variances expérimentales (cas généralisé du Test-T homoscédastique)

- Test de l'ANOVA à un facteur

Type:
Test d'hypothèse paramétrique de type intervalle de confiance utilisé uniquement en unilatéral
Concerne:
L'égalité de deux moyennes
Hypothèse:
Distribution Normale des données avec variances théoriques identiques et variances expérimentales connues et indépendance des échantillons.

- Test d'ajustement (dit aussi "test d'adéquation") du khi-deux

Type:
Test d'ajustement non-paramétrique utilisé uniquement en unilatéral
Concerne:
Adéquation de valeurs expérimentales à une loi théorique
Hypothèse:
Avoir suffisamment de classes d'intervalles et de données
Remarque: Appelé "Test de normalité" si comparé à une loi Normale.

- Test d'indépendance du khi-deux (cf. chapitre de Méthodes Numériques)

Type:
Test d'ajustement non-paramétrique utilisé uniquement en unilatéral
Concerne:
Vérifier la dépendance ou l'indépendance (différence) de données provenant d'une table de contingence (vérifie donc si les moyennes sont différentes ou pas entre groupes en se basant sur la contingence)
Hypothèse:
Avoir suffisamment de classes d'intervalles et de données

- Test de la médiane (cf. chapitre de Méthodes Numériques) Type:
Test d'hypothèse non paramétrique de type intervalle de confiance toujours utilisé en bilatéral
Concerne:
La médiane
Hypothèse:
Un nombre d'échantillons suffisant pour faire un bootstrap.
- Test de Mood Type:
Test d'hypothèse non paramétrique basé sur la classification de données supérieures et inférieurs à la médiane et rangées dans une table de contingence après quoi on calcule un test d'indépendance du khi-deux et le test de la médiane.
Concerne:
Vérifier la dépendance ou l'indépendance (différence) de données provenant d'une table de contingence (vérifie donc si les médianes sont différentes ou pas entre groupes en se basant sur la contingence)
Hypothèse:
Avoir suffisamment de classes d'intervalles et de données
Tableau: 7.1 -Tests courants et démontrés jusqu'à maintenant

Le lecteur intéressé pourra se référer à l'excellent ouvrage en langue anglaise de Gopal K. Kanji qui contient une présentation sommaire avec exemples des 100 tests statistiques paramètriques et non paramétriques les plus utilisés dans le monde.

Remarque: Nous ne traiterons pas des tests statistiques de détection des valeurs abérrantes sur ce site comme le test Q de Dixon, de Grubb ou de Cochran pour la simple qu'ils ont une origine trop empirique. Par contre, si des lecteurs insistent, nous pourrons mettre les détails sur ces tests avec les algorithmes détaillés de calcul des valeurs critiques en utilisant un simple tableur et la technique de Monte-Carlo pour n'importe la distribution de leur votre choix (mais pas uniquement selon la loi Normale contrairement à ce qui est écrit dans la majorité des livres).

Les tests non paramétriques (comme les deux tests du khi-deux déjà vus) ne font eux aucune hypothèse sur la distribution sous-jacente des données. L'étape préalable qui consistait uniquement à estimer les paramètres des distributions avant de procéder au test d'hypothèse proprement dit n'est plus nécessaire.

Lorsque les données sont quantitatives, les tests non paramétriques transforment les valeurs en rangs. L'appellation "tests de rangs" est alors souvent rencontrée. Lorsque les données sont qualitatives, seuls les tests non paramétriques sont utilisables.

TEST (DE RANG) APPARIÉ DE WILCOXON

L'idée du test de Wilcoxon est la suivante: si nous rassemblons deux échantillons de mesures, et que nous rangeons les valeurs dans l'ordre, l'alternance des equation (de taille equation) et des equation (de taille equation) devrait être assez régulière si les deux échantillons de loi de répartition F et respectivement G suivent la même loi de probabilité. Il s'agit donc d'un "test d'ajustement" d'échantillons appariés.

Il ne s'agit donc pas comme le test d'ajustement du khi-deux de comparer des mesures à une loi théorique, mais à d'autres mesures.

Remarque: Le test apparié de Wilcoxon est donc un test non paramétrique parce que nous n'avons pas besoin d'un quelconque indicateur de dispersion ou de position des variables aléatoires étudiées pour l'utiliser. De plus, c'est un test dit robuste dans le sens qu'il ne suppose pas la normalité des données.

Prenons un exemple avant de nous attaquer à l'aspect théorique. Voici deux échantillons de taille 10 (equation) de variables quantitatives:

equation   (7.1)

Remarque: Le test de Wilcoxon peut tout à fait être utilisé pour des variables ordinales (donc catégorielles mais à condition qu'elles soient en un nombre acceptable). Typiquement, le test de Wilcoxon est aussi utilisé pour analyser la réponse à des sondages en entreprise utilisant des échelles de Likert sur 7 points.

Voici les statistiques d'ordre de l'échantillon de taille 20 (equation) regroupé et ordonné (les 10 valeurs equationdu premier échantillon sont soulignées):

equation   (7.2)

Les valeurs du premier échantillon X (dites "valeurs de traitement") ont tendance à être plus petites que celles du second Y (dites "valeurs de contrôle") ce que nous représentons souvent sous la forme graphique suivante (en trichant un peu avec MS Excel):

equation
Figure: 7.1 - Comparaison des valeurs de deux échantillons dans MS Excel

L'idée est alors de chercher à savoir si cette tendance est significative. C'est-à-dire de savoir si nous avons une réelle différence du type equation entre leurs lois de répartitions respectives:

equation
Figure: 7.2 - Exemple générique de la comparaison de deux foctio de répartitions

ou si elles peuvent considérées comme identiques. Pour cela, il faut bien étudier la notion de "rang":

Étant donné un n-échantillon aléatoire equation d'une loi statistique continue quelconque, nous notons equation le rang des equation ordonnés dans une population d'échantillons. Le rang i est donc un nombre entier non nul et strictement positif compris entre 1 et N (somme des tailles de tous les échantillons).

exempleExemple:

Dans:

equation   (7.3)

Nous avons les "statistiques d'ordre" respectives:

equation   (7.4)

Une fois le concept de "rang" défini, intéressons-nous à la somme dans le cadre de notre exemple avec les deux échantillons:

equation   (7.5)

La somme des rangs, notée traditionnellement equation (W pour Wilcoxon), du premier échantillon est alors:

equation   (7.6)

et pour le deuxième échantillon:

equation   (7.7)

Valeurs que nous appelons "statistique de Wilcoxon".

Nous pouvons donc déjà constater qu'il y a effectivement une différence qui semble a priori non négligeable en termes de rang sur les deux échantillons. Tout le problème reste maintenant à construire un outil mathématique rigoureux permettant d'en conclure un fait avec une certaine certitude.

Pour cela, introduisons d'abord la moyenne des rangs en utilisant le résultat démontré dans le chapitre de Suites et Séries en considérant un seul échantillon:

equation   (7.8)

En calculant cela, nous remarquons assez vite qu'il s'agit de l'espérance de la loi discrète uniforme démontrée plus haut dans ce même chapitre pour une variable aléatoire discrète dont les valeurs sont comprises entre 1 et n, soit exactement la définition du rang! Ainsi, nous avons le rang qui aura pour caractéristique de moyenne et de variance pour toute la population:

equation   (7.9)

Mais évidemment pour un échantillon seul cela n'a aucun intérêt! Reprenons nos deux séries equation respectivement de tailles égales equation sans distinction:

equation   (7.10)

Nous avons alors les indicateurs statistiques de rangs sans distinction (il faut bien garder en tête que nous ne savons pas encore à ce niveau du développement si cela nous sera utile ou non):

equation   (7.11)

et les indicateurs statistiques des rangs mais cette fois-ci avec distinction:

equation   (7.12)

Nous avons alors les indicateurs statistiques locaux:

equation   (7.13)

Ces calculs étant effectués, nous n'avons ceci dit rien de concrètement rigoureux pour l'instant en ce qui concerne le test apparié de Wilcoxon dont l'objectif est pour rappel de vérifier si les deux échantillons suivent la même loi ou non.

Pour avancer, considérons les equation valeurs de l'échantillon X. Nous savons (cf. chapitre de Probabilités), qu'il y a alors:

equation   (7.14)

nombre de rangements possibles des equation dans la population des échantillons et que si le test apparié de Wilcoxon se vérifie (c'est-à-dire: les lois de probabilités sont les mêmes pour les deux échantillons), les différents rangements sont équiprobables.

Par exemple, si nous prenons deux échantillons avec respectivement chacun deux mesures (2 variables aléatoires de traitement et 2 de contrôle), nous avons :

equation    (7.15)

arrangements différents tous distincts:

equation   (7.16)

Mais ce n'est pas ce que nous voulons dans le cas présent car déjà nous souhaiterions pouvoir distinguer les deux échantillons et aussi ne pas prendre en compte les arrangements qui consistent uniquement en une permutation des variables d'un même échantillon. Nous avons alors (cf. chapitre de Probabilités):

equation   (7.17)

combinaisons possibles! Effectivement avec 2 échantillons comprenant 2 variables de traitement (X) et 2 variables de contrôle (Y), nous avons:

Rangs possibles
Contrôles

Rangs possibles
Traitements

equation

1, 2
1, 3
1, 4
3, 4
2, 4
2, 3
7
6
5
2, 3
2, 4
1, 4
1, 3
5
4
3, 4
1, 2
3
Tableau: 7.2 - Représentation des rangs de 2 variables de traitement et de contrôle

Si l'hypothèse du test apparié de Wilcoxon est juste, les 6 classements sont équiprobables. Nous en déduisons le tableau suivant:

Valeur de equation

3

4

5

6

7

Probabilité

equation

equation

equation

equation

equation

Cumulatif

equation

equation

equation

equation

equation

Tableau: 7.3 - Probabilités associées au test de Wilcoxon

Ce tableau étant construit, supposons que nous observions pour la somme des ranges des variables de traitement: equation. Le seuil d'un test unilatéral donnerait alors conformément au tableau ci-dessus:

equation   (7.18)

ou si nous obtenions equation:

equation   (7.19)

Nous rejetterions donc l'hypothèse d'une distribution identique entre les deux échantillons à tout seuil supérieur (ou respectivement inférieur) fixé à l'avance par la politique du laboratoire... en test unilatéral ou bilatéral (raison pour laquelle les logiciels donnent les valeurs unilatérales du test + bilatérales en même temps).

Deux choses très importantes qu'il faut remarquer pour la suite sont que:

- Premièrement dans la construction du tableau précédent (dont voici à nouveau une partie):

Valeur de equation

3

4

5

6

7

Probabilité

equation

equation

equation

equation

equation

Tableau: 7.4 - Probabilités associées au test de Wilcoxon

Il y a une symétrie à la valeur 5, ce qui signifie que la loi de equation est symétrique dans ce cas particulier. Mais si nous prenons un autre exemple avec deux échantillons comprenant respectivement 2 variables de contrôle et 3 de traitements (2 variables aléatoires):

Valeur de equation

6

7

8

9

10

11

12

Probabilité

equation

equation

equation

equation

equation

equation

equation

Tableau: 7.5 - Probabilités associées au test de Wilcoxon

le lecteur pourra vérifier que quel que soit le nombre d'échantillons et le nombre de variables de contrôle et de traitement, le tableau de probabilités ci-dessus est toujours symétrique (bon il y a une démonstration mathématique de ceci mais je la trouve peu élégante). Mais au fait c'est assez intuitif, comme les combinaisons equation sont indépendantes du fait que les rangs soient rangés dans l'ordre croissant ou décroissant, il est forcé qu'il y ait une symétrie.

- Deuxièmement les valeurs des variables mesurées ne rentrent pas en compte dans cette statistique paramétrique mais uniquement les valeurs tabulées des rangs avec leurs probabilités associées. Effectivement, comme vous avez pu le remarquer, nous n'avons pas eu besoin des valeurs explicites des variables aléatoires pour construire le tableau précédent.

Maintenant, sachant que la loi de equation est symétrique et discrète nous souhaiterions calculer son espérance (nous ne intéresserons pas au calcul de la variance de cette loi car nous trouvons qu'elle n'apporte dans la pratique aucune information utile).

Le calcul de l'espérance est relativement facile. Effectivement, comme la loi est symétrique, l'espérance est alors la moyenne de la borne supérieure et inférieure des rangs. Voyons cela:

- La plus petite valeur possible de equation est en supposant qu'elle est dans l'échantillon X (les algorithmes informatiques déterminent automatiquement dans quel échantillon mais de toute façon dans la pratique, les échantillons ont quasiment toujours la même taille) :

equation   (7.20)

- La plus grande valeur possible est naturellement (se souvenir que equation):

equation   (7.21)

L'espérance vaut alors:

equation   (7.22)

exempleExemple:

Passons à un cas pratique. Considérons donc 2 échantillons comprenant 2 variables de traitement (X) et deux variables de contrôle (Y) (c'est un peu simpliste et absudre comme exemple mais cela facilit l'aspect pédagogique...), nous avons:

equation   (7.23)

Soit (la variable de traitement a donc le rangs 1 et 3):

equation   (7.24)

Soit:

equation   (7.25)

Nous avons le tableau suivant comme nous l'avons montré plus haut:

Valeur de equation

3

4

5

6

7

Probabilité

equation

equation

equation

equation

equation

Tableau: 7.6 - Probabilités associées au test de Wilcoxon

avec dans le cas présent:

equation   (7.26)

Si nous choisissons le seuil de confiance traditionnel à 5% en bilatéral, nous avons selon le tableau ci-dessus que:

equation   (7.27)

equation   (7.28)

Donc en d'autres termes nous voyons qu'il y a:

equation   (7.29)

de probabilité cumulée que equationsoit compris entre 3 et 7 (la barre au-dessus du 6 signifie pour rappel que ce chiffre se répète à l'infini). Donc forcément 4 est compris dans l'intervalle bilatéral du 95%... et nous pouvons accepter l'hypothèse comme quoi les deux échantillons ne sont pas différents.

Remarque: Au fait si nous voulions faire un exemple calculatoire manuel intéressant en jouant avec un seuil bilatéral de 5% (soit de 2.5% de chaque côté) il faudrait au moins 2 échantillons avec 4 variables aléatoires, soit 70 combinaisons de rangs possibles. En-dessous de 4 variables aléatoires par échantillons, il est évident que le test bilatéral à seuil de 95% sera tel qu'on ne rejettera jamais l'hypothèse d'égalité...

TEST (DE RANG) DE MANN-WITHNEY

Le test de Mann-Withney est au fait un test d'ajustement non-paramétrique très simple qui, dans sa version exacte (car il y en a deux versions... les deux étant données par certains logiciels comme SAS), découle du test de Wilcoxon. Par ailleurs il en est inspiré à un tel point que nous l'appelons parfois dans l'industrie le "test de Wilcoxon-Mann-Withney" ou "test d'ajustement de Wilcoxon-Mann-Withney" ou encorew "test MWW".

Le but de ce test et de trouver un moyen de vérifier que deux échantillons non nécessairement de même taille (!!!) sont issues suivent une même loi ou non (in extenso sont issues d'une même population ou non)! C'est ce petit truc en plus utile dans la pratique qui fait que lorsque la taille des deux échantillons est identique, le test d'ajustement de Mann-Withney se réduit au test de Wilcoxon.

Remarque: Au même titre que le test de Wilcoxon, le test de rang de Mann-Withney peut tout à fait être utilisé pour des variables ordinales (donc catégorielles mais à condition qu'elles soient en un nombre acceptable).

Certains logiciels par ailleurs portent les choses à confusion car ils proposent le test de Mann-Withney... plus deux versions du test de Wilcoxon: une pour données appariées (celle vue plus haut) et une pour données indépendantes (non appariées) et en fait, le test de Wilcoxon pour données indépendantes n'est que le test de Mann-Withney... Certains logiciels contournent le problème en indiquant que lorsqu'un test de Mann-Withney est effectué, la sortie des résultats indiquera le test d'ajustement de Wilcoxon pour données appariées et le test de Wilcoxon pour données indépendantes.

Pour voir de quoi il s'agit, construisons le tableau de rang utilisant 2 échantillons comprenant 2 variables de contrôle et 3 variables de traitement, nous avons alors:

Rangs possibles
Contrôles

Rangs possibles
Traitements

equation

1, 2
1, 3
1, 4
1,5

3, 4, 5
2, 4, 5
2, 3, 5
2, 3, 4

12
11
10
9

2, 3
2, 4
2, 5

1, 4, 5
1, 3, 5
1, 3, 4

10
9
8

3, 4
3, 5
1, 2, 5
1, 2, 4
8
7

4, 5

1, 2, 3

6

Tableau: 7.7 - Représentation des rangs de 3 variables de traitement et 2 de contrôle

Dont nous déduisons le tableau suivant:

Valeurs de equation

6

7

8

9

10

11

12

Probabilité

equation

equation

equation

equation

equation

equation

equation

Tableau: 7.8 - Probabilités associées au test de Wilcoxon

Maintenant imaginons que nous ayons une autre expérience à analyser utilisant 2 échantillons comprenant 3 variables de contrôle et 2 variables de traitement (le symétrique du précédent donc!), nous avons alors:

Rangs possibles
Contrôles

Rangs possibles
Traitements

equation

3, 4, 5
2, 4, 5
2, 3, 5
2, 3, 4

1, 2
1, 3
1, 4
1,5

3
4
5
6

1, 4, 5
1, 3, 5
1, 3, 4

2, 3
2, 4
2, 5

5
6
7

1, 2, 5
1, 2, 4

3, 4
3, 5

7
8

1, 2, 3
4, 5
9
Tableau: 7.9- Représentation des rangs de 2 variables de traitement et 3 de contrôle

Dont nous déduisons le tableau suivant (le lecteur remarquera que c'est exactement le même que le précédent en ce qui concerne les probabilités!!):

Valeurs de equation

3

4

5

6

7

8

9

Probabilité

equation

equation

equation

equation

equation

equation

equation

Tableau: 7.10 - Probabilités associées au test de Wilcoxon

Eh bien l'idée du test de Mann-Withney est très simple:

Plutôt que de tabuler des situations symétriques, il suffit de soustraire à chaque valeur de equation, la valeur equation afin que chaque tableau soit identique et qu'un des deux seul soit utile. Voyons cela d'abord avec le premier tableau:

Rangs possibles
Contrôles

Rangs possibles
Traitements

equation

1, 2
1, 3
1, 4
1, 5

3, 4, 5
2, 4, 5
2, 3, 5
2, 3, 4

6
5
4
3

2, 3
2, 4
2, 5

1, 4, 5
1, 3, 5
1, 3, 4

4
3
2

3, 4
3, 5

1, 2, 5
1, 2, 4

2
1

4, 5
1, 2, 3
0
Tableau: 7.11- Représentation des rangs de 3 variables de traitement et 2 de contrôle

Dont nous déduisons le tableau suivant:

Valeurs de equation

0

1

2

3

4

5

6

Probabilité

equation

equation

equation

equation

equation

equation

equation

Tableau: 7.12 - Probabilités associées au test de Wilcoxon

Maintenant imaginons que nous ayons une autre expérience à analyser utilisant 2 échantillons comprenant 3 variables de contrôle et 2 variables de traitement, nous avons alors en utilisant la même idée:

Rangs possibles
Contrôles

Rangs possibles
Traitements

equation

3, 4, 5
2, 4, 5
2, 3, 5
2, 3, 4

1, 2
1, 3
1, 4
1,5

0
1
2
3

1, 4, 5
1, 3, 5
1, 3, 4

2, 3
2, 4
2, 5

2
3
4

1, 2, 5
1, 2, 4

3, 4
3, 5

4
5

1, 2, 3
4, 5
6
Tableau: 7.13- Représentation des rangs de 2 variables de traitement et 3 de contrôle

Dont nous déduisons cette fois-ci exactement le même tableau que précédemment:

Valeurs de equation

0

1

2

3

4

5

6

Probabilité

equation

equation

equation

equation

equation

equation

equation

Tableau: 7.14 - Probabilités associées au test de Mann-Whitney

raison pour laquelle la littérature mentionne qu'on peut prendre celui que l'on veut!

Donc pour résumer, la variante de Mann-Whitney (dans le cas concret ici présent il s'agit de la variante dite "variante exacte de Mann-Whitney") consiste à tabuler pour les situations symétriques une variable notée equation définie naturellement par:

equation   (7.30)

notée aussi très souvent dans la littérature:

equation   (7.31)

car alors:

equation   (7.32)

et donc:

equation   (7.33)

Dans les tables que l'on peut trouver dans les livres, les probabilités sont données avec la valeur normalisée de U. Ainsi, si nous reprenons notre exemple précédent mais avec les notations d'usage dans la pratique (U au lieu de equation):

Valeurs de U

0

1

2

3

4

5

6

Probabilité

equation

equation

equation

equation

equation

equation

equation

Tableau: 7.15 - Probabilités associées au test de Mann-Whitney

Nous voyons que la probabilité cumulée que equation est de 0.4. La table précédente se trouve dans la littérature sous la forme suivante:

equation

equation

1

2

3

0

0.250

0.100

0.050

1

0.500

0.200

0.100

2

0.750

0.400

0.200

3

1

0.600

0.350

4

 

0.800

0.500

5

 

0.900

0.650

6

 

1

...

Tableau: 7.16 - Représentation classique du test de Mann-Whitney

où nous avons mis en rouge la colonne correspondant à notre exemple (equation) et en vert et gras la valeur prise comme exemple dans le paragraphe précédent. Ensuite il convient au praticien de choisir avec ces tableaux s'il souhaite faire un test bilatéral ou unilatéral.

Remarques:

R1. Insistons, pour clore le sujet concernant les tests de Wilcoxon et Mann-Withney, qu'il existe une version asymptotique de ces deux tests pour equation  grands. Entre la méthode dite exacte que nous avons vue (qui est donc toujours exacte...!) et la version asymptotique qui est une approximation, la différence est de l'ordre du 1 ou 2%.

R2. Il est important de se rappeler que nous avons démontré par l'exemple que nous pouvons aussi bien prendre:

equation   (7.34)

que:

equation   (7.35)

puisqu'ils génèrent les mêmes tableaux!

R3. equation est traditionnellement noté U par les praticiens, d'où le fait que l'on retrouve dans la littérature ce test sous le nom de "test U de Mann-Withney" avec les tables de probabilités associées sous le même nom.

TRAITEMENT DES ÉGALITÉS

Lorsque nous procédons à un test de rang de type Wilcoxon-Mann-Withney ou autre, des égalités de rangs peuvent se produire.

Reprenons pour l'exemple:

equation   (7.36)

avec les données suivantes:

Données:

17

17

17

19

21

Rang:

?

?

?

4

5

Tableau: 7.17 - Exemple de problème en cas d'égalités

Une solution conventionnelle consiste à attribuer à chaque "?" le rang moyen. Donc dans le cas présent, nous avons:

equation   (7.37)

Le tableau:

Rangs possibles
Contrôles

Rangs possibles
Traitements

equation

1, 2
1, 3
1, 4
1,5

3, 4, 5
2, 4, 5
2, 3, 5
2, 3, 4

12
11
10
9

2, 3
2, 4
2, 5

1, 4, 5
1, 3, 5
1, 3, 4

10
9
8

3, 4
3, 5

1, 2, 5
1, 2, 4

8
7

4, 5
1, 2, 3
6
Tableau: 7.18- Représentation des rangs de 3 variables de traitement et 2 de contrôle

devient alors dans ce cas particulier:

Rangs possibles
Contrôles

Rangs possibles
Traitements

equation

2, 2
2, 2
2, 4
2,5

2, 4, 5
2, 4, 5
2, 2, 5
2, 2, 4

11
11
9
8

2, 2
2, 4
2, 5

2, 4, 5
2, 2, 5
2, 2, 4

11
9
8

2, 4
2, 5

2, 2, 5
2, 2, 4

9
8

4, 5
2, 2, 2
6
Tableau: 7.19- Représentation des rangs de 3 variables de traitement et 2 de contrôle

equation (remarquez la petite * en haut à droite!) représente la statistique de Wilcoxon lorsque nous sommes en présence d'égalités statistiques. La loi de equation peut être plus ou moins différente de celle de equation. Effectivement:

Statistique de Wilcoxon

6

7

8

9

10

11

12

Probabilité de equation

equation

equation

equation

equation

equation

equation

equation

Probabilité de equation

equation

0

equation

equation

0

equation

0

Tableau: 7.20- Différence des deux tests statistiques en cas d'égalité ou non

STATISTIQUES DES VALEURS EXTRÊMES

La statistique des valeurs extrêmes est un domaine très important dans la finance et l'ingénierie de la qualité (pour ne citer que les deux exemples les plus connus) qui permet d'étudier l'interpolation et la justification asymptotique des distributions. Comme le lecteur va le voir, cette statistique constitue de par sa construction un sous-domaine des statistiques d'ordre.

Remarque: Un exemple d'application pratique mondialement connu est son utilisation dans des résultats qui vont suivre dans le cadre des cartes de contrôle de la qualité (cf. chapitre de Génie Industriel).

Soient equation des variables aléatoires supposées indépendantes et identiquement distribuées de loi F et de densité f.  Rappelons que nous définissons la statistique d'ordre i notée equation par:

equation   (7.38)

En posant:

equation   (7.39)

Les variables equation et equation définissent les statistiques d'ordres extrêmes et leur écart:

equation   (7.40)

et dite "déviation extrême". Nous accepterons comme triviale la relation:

equation   (7.41)

Déterminons maintenant la fonction de répartition de equation:

equation   (7.42)

car dire que equation équivaut à dire que pour chaque equation nous avons equation (pas facile à deviner qu'il faut avoir cette approche...).

Nous avons alors puisque les variables sont indépendantes (cf. chapitre de Probabilités):

equation   (7.43)

et par suite nous avons évidemment la fonction de distribution:

equation   (7.44)

Respectivement en se basant sur la même idée:

equation   (7.45)

et par suite nous avons évidemment la fonction de distribution:

equation   (7.46)

Il vient alors:

equation   (7.47)

en ayant utilisé la linéarité de l'espérance et le fait que pour les deux fonctions de distribution nous travaillons sur la même variable aléatoire.

En faisant une intégration par parties (cf. chapitre de Calcul Différentiel et Intégral):

equation   (7.48)

en n'oubliant pas que equation et equation.

Maintenant considérons le cas particulier où la fonction de répartition suit une loi Normale centrée réduite:

equation   (7.49)

Nous avons alors:

equation   (7.50)

Faisons un changement de variables:

equation   (7.51)

Nous avons alors:

equation   (7.52)

et nous trouvons alors la relation donnée (99% du temps sans démonstrations) dans les livres de statistiques des procédés:

equation   (7.53)

appelée "constante de Hartley" et donc:

equation   (7.54)

Cette constante est donc impossible à ce jour à calculer formellement. Soit il faut passer par des approximations en série de Taylor des termes de l'intégrale, ce qui devient un cauchemar pour n grand, soit par un calcul utilisant la méthode de Monte-Carlo (cf. chapitre de Méthodes Numériques). Comme c'est relativement long à implémenter dans un tableur, les ingénieurs qualité préfèrent utiliser des tables dans lesquelles nous trouvons par exemple:

Valeurs de n

Valeurs de equation 
avec distribution normale

2

1.128

3

1.693

4

2.059

5

2.326

6

2.534

7

2.704

8

2.847

9

2.970

10

3.078

Tableau: 7.21- Valeurs tabuleés de la constante de Hartley

Voyons maintenant la variance de l'étendue en utilisant toujours la relation de Huyghens:

equation   (7.55)

Le calcul de equation est très peu digeste (du moins je n'ai rien trouvé de satisfaisant aux exigences de Sciences.ch), la plus petite démonstration complète tient sur 3 à 4 pages A4 et n'apporte formellement rien puisque nous finissons sur une intégrale non calculable à la main (par contre si quelqu'un a une démonstration simple, détaillée et élégante qu'il n'hésite pas à se manifester!). C'est pour cette raison qu'après avoir posé:

equation   (7.56)

si nous écrivons comme le font de nombreux ouvrages techniques:

equation   (7.57)

il vient alors que:

equation   (7.58)

Mais comme nous ne connaissons pas l'estimateur du maximum de vraisemblance non biaisé de l'écart-type equation, nous allons utiliser la relation démontrée:

equation   (7.59)

Pour avoir finalement un estimateur biaisé de la variance de l'étendue:

equation   (7.60)

Voici quelques valeurs tabulées de equation:

Valeurs de n

Valeurs de equation 
avec distribution normale

2

1.128

3

1.693

4

2.059

5

2.326

6

2.534

7

2.498

8

2.459

9

2.423

10

2.931

Tableau: 7.22- Valeurs tabuleés de la constante d3

COEFFICIENT DE CORRÉLATION DES RANGS DE SPEARMAN

Le coefficient de corrélation des rangs de Spearman, noté equation est le coefficient de corrélation de la suite equation, des rangs inspiré naturellement du coefficient de corrélation linéaire de Pearson vu au début de ce chapitre:

equation   (7.61)

Prenons un exemple avant de nous attaquer à l'aspect théorique. Des mesures d'une population de taille 10 (nous avons repris les mêmes valeurs que celles prises pour les études des tests de rangs non paramétriques précédents):

X

Y

5.7

8.1

3.2

5.5

8.4

3.4

4.1

7.9

6.9

4.6

5.3

1.6

1.7

8.5

3.2

7.1

2.5

8.7

7.4

5.7

Tableau: 7.23- Exemple de mesures

avec leurs rangs respectifs selon l'idée d'approche de Kendall (idée simple mais à laquelle il fallait penser!):

X

R(i)

Y

S(i)

5.7

7

8.1

8

3.2

3

5.5

4

8.4

10

3.4

2

4.1

5

7.9

7

6.9

8

4.6

3

5.3

6

1.6

1

1.7

1

8.5

9

3.2

4

7.1

6

2.5

2

8.7

10

7.4

9

5.7

5

Tableau: 7.24- Valeurs mesurées et rangs respectifs

Maintenant démontrons que la relation donnée précédemment se simplifie drastiquement car les valeurs de R, comme celles de S, parcourent la suite des n premiers entiers. Or nous avons démontré dans le chapitre de Suites et Séries que:

equation    (7.62)

donc:

equation   (7.63)

Il vient alors:

equation   (7.64)

Nous avons également démontré dans le chapitre de Suites et Séries que:

equation    (7.65)

donc:

equation   (7.66)

Il vient alors:

equation   (7.67)

Maintenant jouons un peu pour obtenir une expression encore plus simplifiée en observant que:

equation   (7.68)

il vient alors que:

equation   (7.69)

Nous avons alors:

equation   (7.70)

Or, nous avons démontré que:

equation   (7.71)

Dès lors:

equation   (7.72)

Ainsi, nous trouvons la fameuse relation disponible dans tous les livres de Statistiques au final:

equation   (7.73)

Le coefficient de Spearman reprend les propriétés essentielles du coefficient de Pearson à savoir que:

equation   (7.74)

et prend la valeur 0 lorsque les variables sont indépendantes (en n'oubliant pas les subtilités importantes y relatives déjà mentionnées lors de notre étude du coefficient de Pearson).

Remarque: Toujours conséquence du fait qu'il soit non paramétrique, le coefficient de corrélation de Spearman peut traiter les variables intrinsèquement ordinales: un indice de satisfaction, une appréciation ou une note attribuée, etc.

CALCULS D'ERREURS/INCERTITUDES

Il est impossible de connaître (mesurer) la valeur exacte d'une grandeur physique expérimentalement, il est très important donc d'en déterminer l'incertitude.

Nous appelons bien évidemment "erreur", la différence entre la valeur mesurée et la valeur exacte. Cependant, comme nous ignorons la valeur exacte, nous ne pouvons pas connaître l'erreur commise quand même.... Le résultat est donc toujours incertain. C'est la raison pour laquelle nous parlons des "incertitudes de mesure".

Nous distinguons deux types d'incertitudes:

1. Les "erreurs systématiques": elles affectent le résultat constamment et dans le même sens (erreurs des appareils de mesures, limites de précision, etc.). Il faut alors éliminer, ou corriger le résultat, si possible !

2. Les "erreurs accidentelles" (statistiques): il faut alors répéter les mesures, calculer la moyenne et évaluer l'incertitude en utilisant les outils de statistique.

Le deuxième type d'erreurs fait un très gros usage de tous les outils statistiques que nous avons présentés jusqu'à maintenant. Nous ne reviendrons donc pas dessus et nous nous concentrerons alors uniquement sur quelques nouveaux concepts.

INCERTITUDES ABSOLUES ET RELATIVES

Si la vraie valeur d'une grandeur est x (supposée connue théoriquement) et la valeur mesurée est equation, alors equation est "l'incertitude absolue" (l'incertitude due aux appareils de mesure) ou "erreur absolue".

L'intervalle de confiance de la mesure est alors notée:

equation   (7.75)

ou:

equation   (7.76)

"L'incertitude relative" ou "erreur relative" est quant à elle définie par:

equation   (7.77)

L'incertitude absolue permet de connaître l'approximation du dernier chiffre significatif de celle-ci. Par contre, lorsque nous désirons comparer deux mesures ayant des incertitudes absolues afin de déceler laquelle a la plus grande marge d'erreur, nous calculons l'incertitude relative de ce nombre en divisant l'incertitude absolue par le nombre, et transformons en pourcentage.

En d'autres termes, l'incertitude relative permet d'avoir une idée de la précision de la mesure en %. Si nous faisons une mesure avec une incertitude absolue de 1 [mm], nous ne saurons pas si c'est une bonne mesure ou non. Ça dépend si nous avons mesuré la taille d'une pièce de monnaie, de notre voisin, de la distance Paris-Marseille ou de la distance Terre-Lune. Bref, ça dépend de l'incertitude relative (c'est-à-dire du rapport de l'incertitude absolue sur la mesure).

ERREURS STATISTIQUES

Dans la plupart des mesures, nous pouvons estimer l'erreur due à des phénomènes aléatoires, appelée "erreur aléatoire", par une série de n mesures equation et ce à l'opposé de "l'erreur systématique" qui est la part non aléatoire de l'erreur.

L'erreur aléatoire permet d'introduire les notions de:

- Répétabilité: qui est définie comme l'étroitesse de l'accord entre les résultats de mesurages successifs d'une même grandeur, effectués avec la même méthode, par le même opérateur, avec les mêmes instruments de mesure, dans le même laboratoire, et à des intervalles de temps assez courts.

- Reproductibilité (parfois appelé "justesse"): qui est définie comme l'étroitesse de l'accord entre les résultats de mesurages successifs d'une même grandeur, dans le cas où les mesurages individuels sont effectués: suivant différentes méthodes, au moyen de différents instruments de mesure, par différents opérateurs dans différents laboratoires.

Ces deux notations sont toujours regroupées sous le sigle "R&R" ou "Étude R&" dans l'industrie. En général, l'accord est moins bon quand il s'agit de reproductibilité.

Remarque: Il existe des logiciels informatiques basés sur l'ANOVA à deux facteurs avec répétition comme Minitab qui générent des rapports très détaillés pour les analyses R&R.

Ces deux types d'erreurs peuvent être illustrés par le tir à la cible de façon plus générale:

equation
Figure: 7.3 - Types d'erreurs en ingénierie de laboratoire

Comme nous l'avons vu plus haut, la valeur moyenne arithmétique sera alors:

equation   (7.78)

et l'écart moyen (estimateur biaisé démontré plus haut):

equation   (7.79)

et l'écart quadratique moyen ou écart-type (estimateur sans biais):

equation   (7.80)

et nous avions démontré que l'écart-type de la moyenne était donné par:

equation   (7.81)

et comme nous l'avons vu, après un grand nombre de mesures indépendantes, la distribution des erreurs sur une mesure suit une loi Normale telle que nous puissions écrire (si nous n'avons pas assez de mesures, nous utiliserons l'I.C. basé sur la loi de Student):

equation   (7.82)

bref nous pouvons réutiliser tous les outils statistiques vus jusqu'ici dans le domaine de la mesure en laboratoire ou ailleurs!

Le résultat d'une mesure doit ainsi comporter en toute rigueur 4 éléments. Par exemple:

equation   (7.83)

où nous avons:

1. La valeur numérique avec un nombre correct de décimales

2. Unité de la mesure selon le standard du système international

3. Incertitude élargie de equation (intervalle de confiance)

4. La valeur entière du k utilisée pour l'intervalle de confiance.

PROPAGATION DES ERREURS

Soit une mesure equation et equation une fonction de x. Quelle est l'incertitude sur y si nous connaissons uniquement l'incertitude d'un appareil de mesure mais qui ne serait pas donnée sous forme d'écart-type statistique?

Lorsque equation est petit, f(x) est remplacé au voisinage de x par sa tangente (il s'agit simplement de la dérivée bien sûr):

equation   (7.84)

mais si y dépend de plusieurs grandeurs x, z, t mesurées avec les incertitudes equation:

equation   (7.85)

l'erreur maximale possible est alors la différentielle totale exacte (cf. chapitre de Calcul Différentiel Et Intégral):

equation   (7.86)

Ce que nous notons aussi souvent:

equation   (7.87)

Ce qui conduit à:

equation   (7.88)

Il apparaît ainsi clairement qu'une opération mathématique ne peut améliorer l'incertitude sur les données.

Remarque: Le résultat d'une multiplication, d'une division, d'une soustraction ou d'une addition est arrondi à autant de chiffres significatifs que la donnée qui en comporte le moins.

Si l'incertitude de l'appareil de mesure est donnée sous forme statistiques (écart-type), il est évident dès lors que nous allons utiliser les propriétés de la variance déjà vues au début de ce chapitre... pour des cas simples.

CHIFFRES SIGNIFICATIFS

Dans les petites écoles (et aussi les plus grandes parfois), il est demandé de transformer une mesure exprimée en une certaine unité en une autre unité.

Par exemple, en prenant les tables, nous pouvons avoir le type de conversion suivante:

equation   (7.89)

Vient alors la question suivante (que l'élève peut avoir oublié...). Au départ d'une mesure dont la précision est de l'ordre de 1 [lb] (donc de l'ordre de 0.5 [kg]), une simple conversion d'unité pourrait-elle amener à une précision au 1/10 [mg] près ?

De cet exemple il faut donc retenir qu'une marge d'incertitude est associée à toute valeur mesurée et à toute valeur calculée à partir de valeurs mesurées.

Dans les sciences exactes, tout raisonnement, toute analyse doit prendre cette incertitude en compte.

Mais pourquoi des chiffres sont-ils significatifs et d'autres pas alors ? Parce qu'en sciences, nous ne rapportons que ce qui a objectivement été observé (principe d'objectivité). En conséquence, nous limitons l'écriture d'un nombre aux chiffres raisonnablement fiables en dépit de l'incertitude: les chiffres significatifs. La précision que des chiffres supplémentaires sembleraient apporter est alors illusoire.

Il faut alors savoir arrondir selon des règles et conventions:

- Lorsque le chiffre de rang le plus élevé qu'on laisse tomber est supérieur à 5, le chiffre précédent est augmenté de 1 (exemple: 12.66 s'arrondit à 12.7). Dans MS Excel:

=ROUND(12.66;1)=12.7

- Lorsque le chiffre de rang le plus élevé qu'on laisse tomber est inférieur à 5, le chiffre précédent reste inchangé (exemple 12.64 s'arrondit à 12.6). Dans MS Excel:

=ROUND(12.64;1)=12.6

- Lorsque le chiffre de rang le plus élevé qu'on laisse tomber est égal à 5, si un des chiffres qui le suivent n'est pas nul, le chiffre précédent est augmenté de 1 (exemple: 12.6502 s'arrondit à 12.7). Dans MS Excel:

=ROUND(12.6502;1)=12.7

- Si le chiffre de rang le plus élevé que nous laissons tomber est un 5 terminal (qui n'est suivi d'aucun chiffre) ou qui n'est suivi que de zéros, nous augmentons de 1 le dernier chiffre du nombre arrondi s'il est impair, sinon nous le laissons inchangé (exemples: 12.75 s'arrondit à 12.8 et 12.65 à 12.6). Dans ce dernier cas, le dernier chiffre du nombre arrondi est toujours un chiffre pair. Les tableurs ne respectent pas vraiment cette dernière règle, effectivement avec MS Excel nous avons:

=ROUND(12.75;1)=12.8
=ROUND(12.65;1)=12.7

Au fait dans la pratique ces règles sont peu utilisées car les logiciels (tableurs) n'intègrent pas des fonctions adaptées. Il est alors d'usage d'arrondir simplement à la valeur de la décimale la plus proche.

Les chiffres significatifs d'une valeur comprennent tous ses chiffres déterminés avec certitude ainsi que le premier chiffre sur lequel porte l'incertitude (ce dernier significatif occupe le même rang que l'ordre de grandeur de l'incertitude).

Souvent, les sources de données ne mentionnent pas d'intervalle de confiance (c'est-à-dire une indication +/-). Par exemple, lorsque nous écrivons equation nous considérons conventionnellement que l'incertitude est du même ordre de grandeur que le rang du dernier chiffre significatif (soit le chiffre incertain).

En fait, seul le rang décimal de l'incertitude est implicite: sa marge réelle n'est pas précisée.

Haut de page
STATISTIQUES (2/3) CALCUL ALGEBRIQUE

Noter cette page:
4.5 sur 5
Noté par 2 visiteur(s).
12345

Commentaires:
Warning: mysql_connect() [function.mysql-connect]: Can't connect to MySQL server on '38.107.179.233' (4) in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 46

Warning: mysql_select_db(): supplied argument is not a valid MySQL-Link resource in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 47

Warning: mysql_query(): supplied argument is not a valid MySQL-Link resource in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 50

Warning: mysql_fetch_array(): supplied argument is not a valid MySQL result resource in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 51
[] 
Warning: mysql_close(): supplied argument is not a valid MySQL-Link resource in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 58
 
   


W3C - HTMLW3C - CSS Firefox
Ce travail est dans le domaine public
2002-2012 Sciences.ch