|

THÉORIE
DE LA DÉMONSTRATION |
NOMBRES | OPÉRATEURS
ARITHMÉTIQUES
|
THÉORIE DES NOMBRES
| THÉORIE DES ENSEMBLES |
PROBABILITÉS | STATISTIQUES
Dernière mise-à-jour de ce chapitre:
21.01.2012 21:24
Version: 2.7 Revision 21 | Rédacteur: Vincent Isoz |
Avancement: ~90%
vues depuis le 01.01.2012: 381
LISTE DES SUJETS TRAITÉS SUR CETTE PAGE | DISCUTER
DE CETTE PAGE
ESTIMATEURS DE VRAISEMBLANCE
Ce qui va suivre est d'une
extrême importance en statistiques et est utilisé énormément
en pratique. Il convient donc d'y accorder une attention toute
particulière!
Nous supposons que nous
disposons d'observations qui
sont des réalisations de variables aléatoires non biaisées (dans
le sens qu'elles sont choisies aléatoirement parmi un lot) indépendantes de
loi de probabilité inconnue mais identique.
Nous allons chercher à estimer
cette loi de probabilité P inconnue à partir des observations .
Supposons que nous procédons
par tâtonnements pour estimer la loi de probabilité P inconnue.
Une manière
de procéder est de se demander si les observations avaient
une probabilité élevée ou non de sortir avec
cette loi de probabilité arbitraire P.
Nous devons pour cela calculer
la probabilité conjointe qu'avaient les observations de
sortir avec .
Cette probabilité vaut (cf. chapitre de Probabilités):
(7.1)
en
notant P la loi de probabilité supposée associée à .
Il faut avouer qu'il serait alors particulièrement maladroit
de choisir une loi de probabilité (avec ses paramètres!)
qui minimise cette quantité...
Au contraire, nous allons
chercher la probabilité qui
maximise ,
c'est-à-dire qui rende les observations le
plus vraisemblable possible.
Nous sommes donc amenés à chercher le (ou les) paramètre(s)
qui maximise(nt) la quantité:
(7.2)
Cette quantité L porte le
nom de "vraisemblance".
C'est une fonction du ou des paramètres et
des observations .
La ou les valeurs du paramètre qui
maximisent la vraisemblance sont
appelées "estimateurs du maximum
de vraisemblance" (estimateur MV).
Faisons quand même trois
petits exemples (très classiques, utiles et importants
dans l'industrie) avec dans l'ordre d'importance (donc pas forcément
dans l'ordre de facilité...) la fonction de distribution
de Gauss-Laplace (Normale), la fonction de distribution
de Poisson
et finalement Binomiale (et in extenso Géométrique).
Remarque: Ces trois exemples sont importants car utilisés
dans les SPC (maîtrise statistiques de processus) dans différentes
multinationales à travers le monde (cf.
chapitre de Génie Industriel).
ESTIMATEURS DE LA LOI NORMALE
Soit un
n-échantillon
de variables aléatoires identiquement distribuées supposées
suivre une loi de Gauss-Laplace (loi Normale) de paramètres et .
Nous recherchons quelles
sont les valeurs des estimateurs du maximum de vraisemblance qui
maximisent la vraisemblance de
la loi Normale ?
Remarque: Il va de soi que les estimateurs du maximum
de vraisemblance
 sont
ici:
(7.3)
Nous avons démontré plus haut que la densité d'une
variable aléatoire
gaussienne était donnée
par:
(7.4)
La vraisemblance est alors
donnée
par:
(7.5)
Maximiser une fonction ou
maximiser son logarithme est équivalent donc la "log-vraisemblance"
sera:
(7.6)
Pour déterminer
les deux estimateurs de la loi Normale, fixons d'abord l'écart-type.
Pour cela, dérivons
par rapport à
et regardons pour quelle valeur de la moyenne la fonction s'annule.
Il nous reste après simplification le terme suivant qui
est égal à zéro:
(7.7)
Ainsi, l'estimateur du maximum
de vraisemblance de la moyenne (espérance) de la loi Normale
est donc après réarrangement:
(7.8)
et nous voyons qu'il s'agit simplement de la moyenne arithmétique
(ou appelée aussi "moyenne empirique").
Fixons maintenant la moyenne.
L'annulation de la dérivée de
en conduit à:
(7.9)
Ce qui nous
permet d'écrire l'estimateur du maximum de vraisemblance
pour l'écart-type
(la variance lorsque la moyenne est connue selon la loi de distribution
supposée elle aussi connue!):
(7.10)
que certains appellent aussi "écart-type
de Pearson"...
Cependant, nous n'avons pas
encore défini ce qu'était un bon estimateur ! Ce que nous entendons
par là:
- Si l'espérance
d'un estimateur est égale à elle-même, nous
disons que cet estimateur est "sans
biais" et c'est bien évidemment ce que nous
cherchons!
- Si l'espérance
d'un estimateur n'est
pas égale à elle-même, nous disons
alors que cet estimateur est "biaisé" et
c'est forcément moins bien...
Dans l'exemple précédent,
la moyenne est donc non biaisée (trivial car la moyenne
de la moyenne arithmétique est égale à elle-même).
Mais qu'en est-il de la variance (in extenso de l'écart-type)
?
Un petit calcul simple par linéarité de l'espérance
(puisque les variables aléatoires sont identiquement distribuées)
va nous donner la réponse
dans le cas où la
moyenne théorique est approchée
comme dans la pratique (industrie) par l'estimateur de la moyenne
(cas le plus fréquent).
Nous avons donc le calcul de l'espérance
de la "variance empirique":
(7.11)
Or, comme les variables sont équidistribuées:
(7.12)
Et nous avons (relation de Huyghens):
(7.13)
ainsi que:
(7.14)
où la deuxième relation ne peut s'écrire que parce
que nous utilisons l'estimateur du maximum de vraisemblance de
la moyenne (moyenne
empirique). D'où:
(7.15)
et comme:
et
(7.16)
Nous avons finalement:
(7.17)
nous avons donc un biais de -1 fois l'erreur-standard:
(7.18)
nous disons alors que cet estimateur à un biais négatif (il sous-estime
la vraie valeur!).
Nous noterons également
que l'estimateur tend vers un estimateur sans
biais (E.S.B.) lorsque le nombre d'échantillons tend
vers l'infini .
Nous disons alors que nous avons un "estimateur
asymptotiquement non biaisé".
Il est important
de prendre note que nous avons démontré que
la variance empirique tend vers la variance théorique
quand n tend
vers l'infini et ce... que les données suivent une loi Normale
ou non!
Remarque: Un estimateur est aussi dit " estimateur
consistant" s'il converge en probabilité, lorsque  ,
vers la vraie valeur du paramètre.
De par les propriétés de
l'espérance, nous avons alors:
(7.19)
il vient alors:
(7.20)
que certains appellent
aussi "écart-type standard"...
Nous avons donc finalement
les deux résultats importants suivants:
1. "L'estimateur du maximum de vraisemblance
biaisé"
ou appelé également "écart-type
empirique" ou encore "écart-type échantillonnal" ou
encore "écart-type de Pearson"
... et donc donné par:
(7.21)
lorsque .
2. "L'estimateur
du maximum de vraisemblance non biaisé" ou
appelé
également "écart-type
standard":
(7.22)
deux relations que nous
retrouvons souvent dans les tables et dans de nombreux logiciels
et que nous utiliserons plus bas dans les développements
des intervalles de confiance et des tests d'hypothèses!
Par
exemple, dans MS Excel l'estimateur biaisé est donné par la
fonction ECARTYPEP( ) et le non biaisé par ECARTTYPE( ).
Au total, cela nous fait donc trois estimateurs pour la même
quantité!! Comme dans l'écrasante majorité des
cas de l'industrie la moyenne théorique n'est pas connue,
nous utilisons le plus souvent les deux dernières relations
encadrées
ci-dessus. Maintenant, c'est là que c'est le plus vicieux:
lorsque nous calculons le biais des
deux estimateurs, le premier est biaisé, le second ne
l'est pas. Donc nous aurions tendance à n'utiliser que le
second. Que nenni! Car nous pourrions aussi parler de la variance
et de
la précision d'un estimateur, qui sont aussi des critères
importants pour juger
de la qualité d'un estimateur par rapport à un autre.
Si nous faisions le calcul de la variance des deux estimateurs,
alors
le premier,
qui est
biaisé, a une variance plus petite que le second qui est
sans biais! Tout ça pour dire que
le critère du biais n'est pas (et de loin) le seul à étudier
pour juger de la qualité d'un estimateur.
Enfin, il est important de se rappeler que le facteur -1 du dénominateur
de l'estimateur du maximum de vraisemblance non biaisé provient
du fait qu'il fallait corriger l'espérance de l'estimateur
biaisé
à la base minoré de une fois l'erreur-standard!
In extenso, il est possible de démontrer (mais je n'ai
jamais réussi...) que si la variable aléatoire suit
une loi Normale (dont nous cherchons
l'expression de l'estimateur non biaisé) et est la somme
de k variables
aléatoires linéairement indépendantes alors
nous avons:
(7.23)
ESTIMATEURS DE LA LOI DE POISSON
En utilisant la même méthode que pour la loi Normale (Gauss-Laplace),
nous allons donc rechercher les estimateurs du maximum de vraisemblance
de la loi de Poisson qui rappelons-le, est définie par:
(7.24)
Dès lors, la vraisemblance est donnée par:
(7.25)
Maximiser une fonction ou maximiser son logarithme est équivalent
donc:
(7.26)
Nous cherchons maintenant à la maximiser:
(7.27)
et obtenons donc son unique estimateur du maximum de vraisemblance
qui sera:
(7.28)
Il est tout à fait normal de retrouver dans cet exemple
didactique la moyenne empirique, car c'est le meilleur estimateur
possible pour le paramètre de la loi de Poisson (qui représente
aussi l'espérance d'une loi de Poisson).
Sachant que l'écart-type de la distribution particulière
(voir plus haut) n'est que la racine carrée de la moyenne,
nous avons alors pour l'écart-type du maximum de vraisemblance
biaisé:
(7.29)
Remarque:
Nous montrons de la même manière des résultats
identiques pour la loi exponentielle très utilisée
en maintenance préventive et
fiabilité!
ESTIMATEUR DE LA LOI BINOMIALE (ET GÉOMÉTRIQUE)
En utilisant la même méthode que pour la loi Normale (Gauss-Laplace)
et la loi de Poisson, nous allons donc rechercher l'estimateur
du maximum de vraisemblance de la loi Binomiale qui rappelons-le,
est définie par:
(7.30)
Dès lors, la vraisemblance est donnée par:
(7.31)
Il convient de se rappeler que le facteur qui suit
le terme combinatoire exprime déjà les variables
successives selon ce que nous avons vu lors de notre étude
de la fonction de distribution de Bernoulli et de la fonction binomiale.
D'où la disparition du produit dans la dernière égalité précédente.
Maximiser une fonction ou maximiser son logarithme est équivalent
donc:
(7.32)
Nous cherchons maintenant à la maximiser:
(7.33)
Le lecteur au remarque que le coefficient biniomial a disparu.
Dès lors, nous en déduisons immédiatement
que l'estimateur de la loi binomiale sera le même que celui
de la loi géométrique.
Ce qui donne:
(7.34)
d'où nous tirons l'estimateur du maximum de vraisemblance biaisé
qui sera:
(7.35)
Ce résultat est assez intuitif si l'on considère
l'exemple classique d'une pièce de monnaie qui a une chance
sur deux de tomber sur une de ces faces. La probabilité p étant
le nombre de fois k où une face donnée a été observée
sur le nombre d'essais total (toutes faces confondues).
Remarque: Dans la pratique, il n'est pas aussi simple
d'appliquer ces estimateurs! Il faut bien réfléchir
lesquels sont les plus adaptés à une expérience
donnée
et idéalement calculer également l'erreur quadratique
moyenne (erreur standard) de chacun des estimateurs de la moyenne
(comme nous l'avons déjà fait pour la moyenne empirique
plus tôt). Bref c'est un long travail de réflexion.
ESTIMATEURS DE LA LOI DE WEIBULL
Nous avons vu dans le chapitre de Génie Industriel une étude
très détaillée de la loi de Weibull à trois
paramètres avec son écart-type
et son espérance car nous avions précisé qu'elle était
assez utilisée
dans le domaine de l'ingénierie de la fiabilité.
Malheureusement les trois paramètres de cette loi nous
sont en pratique inconnus. A l'aide des estimateurs nous pouvons
cependant déterminer l'expression de deux des trois en supposant comme étant
nul. Cela nous donne donc la loi de Weibull dite "loi de Weibull à deux
paramètres" suivante:
(7.36)
avec pour rappel et .
Dès lors la vraisemblance est donnée par:
(7.37)
Maximiser une fonction ou maximiser son logarithme est équivalent
donc:
(7.38)
Cherchons maintenant à maximiser cela en se rappelant que (cf.
chapitre de Calcul Différentiel et Intégral):
et
(7.39)
d'où:
(7.40)
Et nous avons pour le deuxième paramètre:
(7.41)
d'où:
(7.42)
Finalement avec les écritures correctes (et dans l'ordre de résolution
dans la pratique):
et
(7.43)
La résolution de ces équations implique de lourds
calculs et on ne peut rien en tirer dans les tableaux classiques
comme MS Excel
ou Calc de Open Office.
On prend alors une approche différente en écrivant notre loi
de Weibull à deux paramètres ainsi:
(7.44)
avec pour rappel et .
Dès lors la vraisemblance est donnée par:
(7.45)
Maximiser une fonction ou maximiser son logarithme est équivalent
donc:
(7.46)
Cherchons maintenant à maximiser cela en se rappelant que (cf.
chapitre de Calcul Différentiel et Intégral):
et
(7.47)
d'où:
(7.48)
Et nous avons pour le deuxième paramètre:
(7.49)
Il est alors immédiat que:
(7.50)
injecté dans la relation:
(7.51)
Il vient:
(7.52)
en simplifiant:
(7.53)
La résolution des deux équations (dans l'ordre de haut en bas):
(7.54)
peut très facilement être calculée avec l'outil
Valeur Cible de MS Excel ou Calc de Open Office.
ESTIMATEURS DE LA LOI GAMMA
Nous allons utiliser ici une technique appelée "méthode
des moments" pour déterminer les estimateurs des
paramètres de la loi Gamma.
Supposons que X1, ..., Xn sont
des variables aléatoires indépendantes et identiquement distribuées
selon la loi Gamma avec pour densité:
(7.55)
Nous cherchons à estimer .
Pour cela, nous déterminons d'abord quelques moments théoriques.
Le premier moment est l'espérance qui comme nous l'avons démontré vaut:
(7.56)
et le second moment, l'espérance du carré de la variable, est
comme nous l'avons démontré implicitement lors de la démonstration
de la variance de la loi Gamma:
(7.57)
Nous exprimons ensuite la relation entre les paramètres et les
moments théoriques:
(7.58)
La résolution donne:
(7.59)
Une fois ce système établie, la méthode des moments consiste à utiliser
les moments empiriques, en l'occurrence pour notre exemple les
deux premiers, :
(7.60)
que l'on pose égaux aux moments théoriques vrais... Dès lors,
il vient:
(7.61)
INTERVALLES DE CONFIANCE
Jusqu'à maintenant nous avons toujours déterminé les différents
estimateurs de vraisemblance ou estimateurs simples (variance, écart-type) à partir
de lois (fonctions) statistiques théoriques ou mesurées sur toute
une population de données.
Définition: Un intervalle de confiance est un couple de nombres
qui définit une plage de valeurs possibles avec une certaine probabilité
pour un estimateur statistique donné.
Nous allons maintenant aborder une approche un peu différente
et importante dans l'industrie en se demandant maintenant quelles
doivent être les tailles d'échantillons pour avoir une certaine
validité (intervalle de confiance I.C.) pour les données mesurées
ou encore quel écart-type
ou fractile dans une loi Normale centrée réduite (grand nombre
d'échantillons), du Khi-deux, de Student ou de Fisher correspond à un
certain intervalle de confiance (nous verrons
ces deux derniers cas de faibles échantillons dans
la partie
traitant
de
l'analyse
de la variance ou ANOVA) lorsque la variance ou la moyenne est
connue ou respectivement inconnue sur l'ensemble ou une partie
de la population
donnée.
Indiquons que ces intervalles de confiance utilisent le théorème
central limite démontré plus loin (afin d'éviter
toute frustration) et que les développements que nous allons
faire maintenant nous seront également utiles dans le domaine
des Tests d'Hypothèses qui
ont une place majeure en statistique!
Enfin, indiquons que de très nombreuses organisations
(privées
ou étatiques) font des statistiques fausses car les hypothèses
et conditions d'utilisation ne sont pas rigoureusement vérifiées
ou simplement omises ou pire encore, toute la base (les mesures)
ne sont pas collectées dans les règles de l'art (fiabilisation
de la collecte de données).
Remarque: Le praticien doit être très prudent
quant à au
calcul des intervalles de confiance et à l'utilisation des
tests d'hypothèses
dans la pratique. Raison pour laquelle, afin d'éviter toute
erreur triviale d'utilisation ou d'interprétation, il est
important de se référer aux normes suivantes par
exemple: ISO 2602:1980 (Interprétation
statistique de résultats d'essais - Estimation de la moyenne
- Intervalle de confiance), ISO 2854:1976 (Interprétation
statistique des données - Techniques d'estimation et tests
portant sur des moyennes et des variances), ISO 3301:1975 (Interprétation
statistique des données - Comparaison de deux moyennes dans
le cas d'observations appariées), ISO 3494:1976 (Interprétation
statistique des données -- Efficacité des tests portant
sur des moyennes et des variances), ISO 5479:1997 (Interprétation
statistique des données - Tests pour les écarts à la
distribution normale), ISO 10725:2000 + ISO 11648-1:2003 + ISO 11648-2:2001
(Plans et procédures
d'échantillonnage pour acceptation pour le contrôle
de matériaux en vrac), ISO 11453:1996 (Interprétation
statistique des données - Tests et intervalles de confiance
portant sur les proportions), ISO 16269-4:2010 (Interprétation
statistique des données Détection et traitement
des valeurs aberrantes), ISO 16269-6:2005 (Interprétation
statistique des données - Détermination
des intervalles statistiques de tolérance), ISO 16269-8:2004
(Interprétation statistique des données - Détermination
des intervalles de prédiction), ISO/TR 18532:2009 (Lignes
directrices pour l'application des méthodes statistiques à la
qualité et à la normalisation industrielle).
I.C. SUR LA MOYENNE AVEC VARIANCE THÉORIQUE CONNUE
Commençons par le cas le plus simple et le plus courant qui est
la détermination du nombre d'échantillons pour avoir une certaine
confiance dans la moyenne des mesures effectuées d'une variable
aléatoire supposée suivre une loi Normale.
D'abord rappelons que nous avons démontré au début de ce chapitre
que l'erreur-type (écart-type à la moyenne) était:
(7.62)
Maintenant, avant d'aller plus loin, considérons X comme
une variable aléatoire suivant une loi Normale de moyenne et
d'écart-type .
Nous souhaiterions que la variable aléatoire ait par exemple 95%
de probabilité cumulée de se trouver dans un intervalle symétrique
borné donné. Ce qui s'exprime donc sous la forme suivante:
(7.63)
Remarque: Donc
avec un intervalle de confiance de 95% vous aurez raison 19 fois
sur 20, ou n'importe quel autre niveau de confiance
ou niveau de risque  (1-niveau
de confiance, soit 5%) que vous vous serez fixé à l'avance.
En moyenne, vos conclusions seront donc bonnes, mais nous ne pourrons
jamais savoir si une décision particulière est bonne!
Si le niveau de risque est très faible mais que l'événement
a quand même lieu, les spécialistes parlent alors de " grande
déviation" ou de " black
swan" (cygne noir). La gestion des valeurs aberrantes
est traitée dans la norme ISO 16269-4:2010 Détection
et traitement des valeurs aberrantes que tout ingénieur
faisant des statistiques en entreprise se doit de respecter.
En centrant et réduisant la variable aléatoire:
(7.64)
Notons maintenant Y la variable centrée réduite:
(7.65)
Puisque la loi Normale centrée réduite est symétrique:
(7.66)
D'où:
(7.67)
A partir de là en lisant dans les tables numériques de la loi
Normale centrée réduite, nous avons pour satisfaire cette égalité que:
(7.68)
Ce qui s'obtient facilement avec MS Excel en utilisant la fonction:
-NORMSINV((1-0.95)/2).
Donc:
(7.69)
Ce qui est noté de façon traditionnelle dans le
cas général autre
que 95% par (Z étant la variable aléatoire correspond donc
à la loi Normale centrée réduite):
(7.70)
Or, considérons que la variable X sur laquelle
nous souhaitons faire de l'inférence statistique est justement
la moyenne (et nous démontrerons plus loin que celle-ci
suit une loi Normale centrée
réduite). Dès
lors:
(7.71)
nous en tirons:
(7.72)
dont nous prenons évidemment (normalement...) la valeur
entière
supérieure…
Cette dernière notation est plus souvent
écrite sous la forme suivante mettant mieux en évidence
la largeur de l'intervalle de confiance à un niveau sous-jacent:
(7.73)
Ainsi, nous pouvons maintenant savoir le nombre d'échantillons à avoir
pour s'assurer un intervalle de précision (marge
d'erreur) autour de la moyenne et pour qu'un pourcentage donné des
mesures se trouvent dans cet intervalle et en supposant l'écart-type
théorique connu
(ou imposé) d'avance (typiquement utilisé dans l'ingénierie
de la qualité ou les instituts de sondages).
Autrement dit, nous pouvons calculer le nombre n d'échantillons
à mesurer pour s'assurer un intervalle de confiance donné
(associé à Z) de la moyenne mesurée
en supposant l'écart-type théorique connu (ou
imposé) et en souhaitant un
précision de en
valeur absolue sur la moyenne.
Cependant... en réalité, la variable Z provient du théorème
central limite (voir plus bas) qui donne pour un échantillon de
grande taille (approximativement):
(7.74)
En réarrangeant nous obtenons:
(7.75)
et comme Z peut être négatif ou positif alors il est plus
censé d'écrire cela sous la forme:
(7.76)
Soit:
(7.77)
que les ingénieurs notent parfois:
(7.78)
avec LCL étant la lower confidence limit et UCL la upper confidence
limit. C'est de la terminologie Six Sigma (cf.
chapitre de Génie Industriel).
Et nous venons de voir plus avant que pour avoir un intervalle
de confiance à 95% nous devions avoir Z=1.96. Et puisque la loi
Normale est symétrique:
(7.79)
Cela se note finalement:
(7.80)
Comme nous l'avons déjà mentionné, et nous le démontrerons un
peu plus loin, la moyenne arithmétique centrée réduite d'une
séries de variables aléatoires indépendantes et identiquement distribuées
de variance
fini suit asymptotiquement une loi Normale centrée réduite, alors
l'intervalle de confiance ci-dessus à une portée très générale!
Raison pour laquelle nous parlons parfois de "d'intervalle
de confiance asymptotique de la moyenne".
Dans le cas particulier d'un I.C. (intervalle
de confiance) à 95%, la dernière relation s'écrit:
(7.81)
Parfois nous retrouvons l'inégalité antéprécédente sous la forme équivalente
suivante:
(7.82)
ou encore plus rarement sous la forme générale
suivante (que l'on retrouve pour toutes les intervalles):
(7.83)
où ME signifie "marge
d'erreur".
Nous sommes ainsi capables maintenant d'estimer
des tailles de population nécessaires à obtenir un
certain niveau de confiance dans
un résultat, soit d'estimer
dans quel intervalle de confiance se trouve la moyenne théorique
en connaissant la moyenne
expérimentale (empirique) et l'estimateur du maximum de
vraisemblance de l'écart-type. Nous pouvons bien évidemment
dès lors aussi déterminer la probabilité avec
laquelle la moyenne est en dehors d'un certain intervalle... (l'un
comme l'autre étant
beaucoup utilisés dans l'industrie).
Enfin, signalons que du résultat précédent,
nous déduisons immédiatement
par la propriété de
stabilité de la loi Normale (démontrée plus
haut) le test suivant que nous retrouvons dans de très nombreux
logiciels de statistiques:
(7.84)
appelé "test
Z bilatéral sur
la différence de deux moyennes" avec l'intervalle de
confiance correspondant:
(7.85)
Remarque: La taille de la population mère
pour les relations développées plus haut n'entre
pas en ligne de compte dans le calcul des intervalles de confiance
ni dans celui de la taille de l'échantillon, et pour cause,
elle est considérée infinie. Il faut donc faire attention à ne
pas avoir parfois des taills d'échantillons qui sont plus
grandes que la population mère réelle possible...
I.C. SUR LA VARIANCE AVEC MOYENNE THÉORIQUE CONNUE
Commençons par démontrer une propriété fondamentale
de la loi du khi-deux:
Si une variable aléatoire X suit une loi Normale centrée
réduite alors
son carré suit une loi du khi-deux de degré de liberté 1:
(7.86)
Démonstration:
Pour démontrer cette propriété, il suffit de calculer la densité de
la variable aléatoire avec .
Or, si et
si nous posons ,
alors pour tout nous
obtenons:
(7.87)
Puisque la loi Normale centrée réduite est symétrique
par rapport à 0
pour la variable aléatoire X, nous pouvons écrire :
(7.88)
En notant la
fonction de répartition de la loi Normale centrée réduite (sa probabilité cumulée
en d'autres termes pour rappel...), nous avons :
(7.89)
et comme:
(7.90)
alors:
(7.91)
La fonction de répartition de la variable aléatoire
(probabilité cumulée) est
donc donnée par :
(7.92)
si y est supérieur ou égal à zéro,
nulle si y inférieur à zéro.
Nous noterons cette répartition pour
la suite des calculs.
Puisque la fonction de distribution est la dérivée de la fonction
de répartition et que X suit une loi Normale centrée réduite
alors nous avons pour la variable aléatoire X :
(7.93)
alors nous avons pour la loi de distribution de Y (qui
est donc le carré de X pour rappel!):
(7.94)
cette dernière expression correspond exactement à la
relation que nous avions obtenue lors de notre étude de
la loi du khi-deux en imposant un degré de liberté unité.
Le théorème est donc bien démontré,
à savoir
que si X suit une
loi Normale centrée réduite alors son carré suit
une loi du khi-deux à 1
degré de liberté tel que :
(7.95)
C.Q.F.D.
Ce type de relation est utilisé dans les processus industriels
et leur contrôle (cf. chapitre de Génie
Industriel).
Nous allons maintenant utiliser un résultat démontré lors
de notre étude de la loi Gamma. Nous avons effectivement
vu plus haut que la somme de deux variables aléatoires suivant
une loi Gamma suit aussi une loi Gamma dont les paramètres
s'additionnent:
(7.96)
Comme la loi du khi-deux n'est qu'un cas particulier de la loi
Gamma, le même résultat s'applique.
Pour être plus précis, cela revient à écrire:
Si sont
des variables aléatoires indépendantes (!) et identiquement distribuées
N(0,1) alors
par extension de la démonstration précédente
où nous avons montré que:
(7.97)
et de la propriété d'addition de la loi Gamma,
la somme de leurs carrés suit alors une loi du khi-deux
de degré k telle
que:
(7.98)
Ainsi, la loi du à k degrés
de liberté est la loi de probabilité de la somme des carrés de k variables
normales centrées réduites linéairement indépendantes entre
elles. Il s'agit de la propriété de linéarité de
la loi du Khi-deux (implicitement de la linéarité de la loi Gamma)!
Maintenant voyons une autre propriété importante
de la loi du khi-deux: Si sont
des variables aléatoires indépendantes et identiquement
distribuées (donc
de même moyenne et même écart-type et suivant une loi Normale)
et si nous notons l'estimateur du maximum de vraisemblance de la
variance:
(7.99)
alors, le rapport de la variable aléatoire sur
l'écart-type supposé connu de l'ensemble de la population
(dit "écart-type vrai" ou "écart-type théorique" pour bien différencier!)
multiplié par
le nombre d'échantillons n de
la population suit une loi du khi-deux de degré n telle
que:
(7.100)
Remarques:
R1. En laboratoire, les peuvent être
vues comme une classe d'échantillons d'un même produit étudié identiquement
par différentes équipes de recherche avec des instruments de même
précision (écart-type de mesure nul).
R2. est
la "variance interclasse" également
appelée "variance expliquée".
Donc elle donne la variance d'une mesure ayant eu lieu dans les
différents laboratoires.
Ce qui est intéressant c'est qu'à partir du calcul de la loi
du khi-deux en connaissant n et l'écart-type il
est possible d'estimer cette variance (écart-type) interclasse.
Pour voir que cette dernière propriété est une généralisation élémentaire
de la relation:
(7.101)
il suffit de constater que la variable aléatoire est
une somme de n carrés de N(0,1) indépendants les
uns des autres. Effectivement, rappelons qu'une variable aléatoire
centrée réduite (voir notre étude de la loi Normale) est donnée
par:
(7.102)
Dès lors:
(7.103)
Or, puisque les variables aléatoires sont
indépendantes et identiquement distribuées selon une loi
Normale, alors les variables aléatoires:
(7.104)
sont aussi indépendantes et identiquement distribuées mais selon
une loi Normale centrée réduite.
Puisque:
(7.105)
en réarrangeant nous obtenons:
(7.106)
Donc sur la population de mesures, l'écart-type vrai suit
la relation donnée ci-dessus. Il est donc possible de faire
de l'inférence
statistique sur l'écart-type lorsque la moyenne théorique
est connue (...).
Puisque la fonction du khi-deux n'est pas symétrique,
la seule possibilité pour faire l'inférence c'est
de faire appel au calcul numérique et nous noterons alors
l'intervalle de confiance à 95%
(par exemple...) de la manière suivante:
(7.107)
Soit en notant :
(7.108)
le dénominateur étant alors bien évidemment la probabilité cumulée.
Cette relation est rarement utilisée dans la pratique car la moyenne
théorique n'est pas connue. Voyons donc le cas le plus courant:
I.C. SUR LA VARIANCE AVEC MOYENNE EMPIRIQUE
Cherchons maintenant à faire de l'inférence statistique lorsque
la moyenne théorique de la population n'est
pas connue. Pour cela, considérons maintenant la somme:
(7.109)
où pour rappel est
la moyenne empirique (arithmétique) de l'échantillon:
(7.110)
En continuant le développement nous avons:

(7.111)
Or, nous avons démontré au début de ce chapitre que la somme
des écarts à la moyenne était nulle. Donc:
(7.112)
et reprenons l'estimateur sans biais de la loi Normale (nous
changeons de notation pour respecter les traditions et bien différencier
la moyenne empirique de la moyenne théorique):
(7.113)
Dès lors:
(7.114)
ou autrement écrit:
(7.115)
Puisque le deuxième terme (au carré) suit une loi Normale centrée
réduite aussi, alors si nous le supprimons nous obtenons de par
la propriété démontrée plus haut de la loi du Khi-deux:
(7.116)
Ces développements nous permettent cette fois-ci de faire aussi
de l'inférence sur la variance d'une
loi lorsque
les paramètres et sont
tous les deux inconnus pour l'ensemble de la population. C'est
ce résultat qui nous donne, par exemple, l'intervalle de confiance:
(7.117)
lorsque la moyenne théorique est
donc inconnue.
I.C. SUR LA MOYENNE AVEC VARIANCE EMPIRIQUE CONNUE
Nous avons démontré beaucoup plus haut que la loi de Student
provenait de la relation suivante:
(7.118)
si Z et U sont des variables aléatoires indépendantes
et si Z suit une loi Normale centrée réduite N(0,1)
et U une loi du khi-deux tel
que:
(7.119)
et rappelons que la fonction de densité (distribution) est symétrique!
Voici une application très importante du résultat
ci-dessus:
Supposons que constituent
un échantillon aléatoire de taille n issu de la loi .
Alors nous pouvons déjà écrire que selon les développements faits
plus haut:
(7.120)
Et pour U qui suit une loi ,
si nous posons alors
selon les résultats obtenus plus haut:
(7.121)
Nous avons alors après quelques simplifications triviales:
(7.122)
Donc puisque:
(7.123)
suit une loi de Student de paramètre k alors nous
obtenons le "independant one-sample t-test":
(7.124)
suit aussi une loi de Student de paramètre n-1.
Ce qui nous donne aussi après réarrangement:
(7.125)
Ce qui nous permet de faire de l'inférence sur la moyenne d'une
loi Normale d'écart-type théorique inconnu (sous-entendu
qu'il n'y a pas assez de valeurs expérimentales) mais dont
l'estimateur sans biais de l'écart-type
est connu. C'est ce résultat
qui nous donne l'intervalle de confiance:
(7.126)
où nous retrouvons les mêmes indices que pour l'inférence
statistique sur la moyenne (espérance) d'une variable aléatoire
d'écart-type (théorique)
connu puisque la loi de Student tend asymptotiquement pour de grandes
valeurs de n vers une loi Normale. Ainsi, l'intervalle
précédent et l'intervalle suivant:
(7.127)
donneront des valeurs très proches (à la troisième
décimale)
pour des grandeurs de n aux
alentours des 10'000 (dans la pratique on considère qu'à partir
de 100 c'est identique...).
Enfin, nous avons aussi en faisant les mêmes développements,
la relation suivante pour la taille d'un échantillon:
(7.128)
Nous pouvons bien évidemment dès lors aussi
déterminer
la probabilité avec laquelle la moyenne est dedans ou en
dehors d'un certain intervalle... (l'une comme l'autre étant
beaucoup utilisées dans l'industrie).
Le lecteur pourra s'amuser à contrôler avec MS Excel
que pour un grand nombre de mesures n,
la loi de Student tend vers la loi Normale centrée réduite
en comparant les valeurs des deux fonctions ci-dessous:
=LOI.STUDENT.INVERSE.N(5%/2;n-1)
=LOI.NORMALE.STANDARD.INVERSE.N(5%/2)
Remarque: Le
résultat précédent fut obtenu par William
S. Gosset aux alentours de 1910. Gosset qui avait étudié les
mathématiques et la chimie,
travaillait comme statisticien pour la brasserie Guinness en Angleterre. À l'époque,
on savait que si  sont
des variables aléatoires indépendantes et identiquement
distribuées
alors:
(7.129)
Toutefois, dans les applications statistiques on s'intéressait
bien évidemment plutôt à la quantité:
(7.130)
on se contentait alors de supposer que cette quantité suivait à peu
près une loi Normale centrée réduite ce qui
n'était pas une mauvaise
approximation comme le montre l'image ci-dessous ( ):

Figure: 7.1 - Comparaison entre la fonction de distribution Normale et celle de
Student
Suite à de nombreuses simulations, Gosset arriva à la conclusion
que cette approximation était valide seulement lorsque n est
suffisamment grand (donc cela lui donnait l'indication comme quoi
il devait y avoir quelque part derrière le théorème central limite).
Il décida de déterminer l'origine de la distribution et après avoir
suivi un cours de statistique avec Karl Pearson il obtint son fameux
résultat qu'il publia sous le pseudonyme de Student. Ainsi, on
appelle loi de Student la loi de probabilité qui aurait dû être
appelée la loi ou fonction de Gosset.
Signalons enfin que le test de Student est très utilisé pour
identifier si des variations (progressions
ou l'inverse) de la moyenne des chiffres de deux
populations identiques sont significatives. C'est-à-dire
que si la taille de deux échantillons dépendants
est identique alors nous pouvons créer le test suivant (nous
avons indiqué tous
les différents types d'écritures que l'on peut retrouver
dans la littérature et dans les nombreux logiciels implémentant
ce test):
(7.131)
Avec:
(7.132)
La relation antéprécédente
est donc très
utile pour comparer deux fois le même échantillon
dans des situations différentes de mesure (ventes avant
ou après
rabais d'un article par exemple). Cette dernière relation
est appelée "test
de Student de deux moyennes d'échantillons appariés
(ou échantillons dépendants)".
TEST BINOMIAL EXACT
Il arrive fréquemment lors de mesures que l'on souhaite
comparer si deux échantillons de petite taille pris au hasard
(sans remise!) d'une population elle aussi petite... sont significativement
différents ou non alors que l'on attendait une égalité parfaite
(50%/50%)!
Il s'agit donc d'un test adapté aux cas suivants:
- Savoir si un échantillon d'une population préfère
utiliser une technique de travail plutôt qu'une autre alors
que l'on s'attend à ce que la population utilise autant
l'une que l'autre
- Savoir si un échantillon d'une population a une caractéristique
prédominante parmi deux possibilités alors que l'on
s'attend à ce que la population soit parfaitement équilibrée.
Avant d'aller plus en détails, rappelons qu'il faut être
extrêmement prudent quant à la manière d'obtenir
les deux échantillons. Il faut que l'expérience soit
non biaisée, cela signifie pour rappel, que le protocole
de tirage ne doit en aucun cas avantager l'une au l'autre des caractéristiques
de la population (si vous étudiez l'équilibre homme/femme
dans une population en attirant dans le sondage des personnes grâce à un
cadeau sous la forme de bijoux vous aurez alors un échantillon
biaisé... car vous aurez probablement naturellement plus
de femmes que d'hommes...).
Ceci étant dit, cette situation correspond donc à une
loi binomiale pour laquelle nous avons démontré plus
haut dans ce chapitre que la probabilité de k réussites
pour une population de taille N dont la probabilité de
réussite
est p (et la probabilité d'échec
q donc de 1-p) était donnée par
la relation:
(7.133)
Dans le cas qui nous intéresse, nous avons donc :
(7.134)
tout en
se rappelant que la distribution ne sera pas pour autant symétrique
et ce surtout si la taille N de la population est petite.
Si nous notons maintenant x le nombre de réussites (taille
du premier échantillon) et y le nombre d'échecs (taille
du deuxième échantillon), nous avons alors:
(7.135)
Ceci étant fait, pour construire le test et de par l'asymétrie
de la distribution, nous allons calculer la probabilité cumulée
que k soit plus petit que le x obtenu par l'expérience
et la sommer à la probabilité cumulée pour
que
k soit plus grand que le y obtenu par l'expérience
(ce qui correspond à la probabilité cumulée
des queues respectivement gauche et droite de la distribution).
Cette
somme sera notée p pour la suite telle que:
(7.136)
et cette dernière relation est appelée "test
binomial exact (bilatéral)".
Si la valeur de p obtenue pour la somme est au-dessus
d'une certaine probabilité cumulée minimale fixée à l'avance,
nous dirons alors que la différence avec un échantillon
tiré au hasard dans une population parfaitement équilibrée
n'est pas significative (en bilatéral...) et respectivement
si elle est en-dessous, la différence sera donc significative
et nous rejetterons l'équilibre supposé.
Ainsi, si:
(7.137)
la différence par rapport à une population équilibrée
sera considérée donc comme non significative. Souvent
on prendra au maximum
comme valant 5% (mais rarement en-dessous) ce
qui correspond donc à un intervalle de confiance de 95%.
Malheureusement d'un logiciel de statistiques à l'autre
les paramètres demandés ou les résultats obtenus
ne seront pas nécessairement les mêmes (les tableurs
n'intègrent pas de fonction spécifique pour le test
binomial, il faudra souvent construire un tableau ou programmer
soi-même la fonction). Par exemple, certains logiciels calculent:
(7.138) Exemple:
D'une petite population ayant deux caractéristiques x et
y particulières qui nous intéressaient et
pour laquelle nous nous attendions à avoir un parfait équilibre
tel que
nous avons en réalité obtenu et
.
Nous souhaiterions faire le calcul avec MS Excel pour savoir si cette différence
est significative ou non à un niveau de 5%?
Pour répondre à cette question, nous allons
calculer:
(7.139)
ce qui nous donne: 
Figure: 7.2 - Valeurs du calcul des coefficients binomiaux dans MS Excel
soit explicitement:

Figure: 7.3 - Formules du calcul des coefficients binomiaux dans MS Excel
donc la valeur p étant de 0.774 (soit 77.4%) la
différence
par rapport à une population équilibrée sera
considérée donc comme non significative.
I.C. POUR UNE PROPORTION
Indiquons que certains statisticiens utilisent le fait que la
loi Normale découle de la loi de Poisson qui elle-même découle
de la loi Binomiale (nous l'avons démontré lorsque n tend
vers l'infini et que p et q sont du même ordre)
pour faire un intervalle de confiance dans le cadre de l'analyse
de proportions (très utilisé dans l'analyse
de la qualité dans les industries).
Pour voir cela, notons la
variable aléatoire définie par:
(7.140)
où l'attribut A peut être la propriété "défectueux" ou "non
défectueux" par exemple pour une analyse de pièces. Nous noterons k le
nombre de réussites de l'attribut A.
La variable aléatoire nous
l'avons démontré au début de ce chapitre, suit une loi Binomiale
de paramètres n et p avec les moments:
(7.141)
Ceci étant, nous ne connaissons pas la valeur vraie de p.
Nous allons donc utiliser l'estimateur de la loi Binomiale démontré plus
haut:
(7.142)
D'après les propriétés de l'espérance nous avons alors:
(7.143)
Et nous avons d'après les propriétés de la variance, la relation
suivante pour la variance de la moyenne empirique de la proportion:
(7.144)
Ce qui nous amène alors à:
et
(7.145)
Maintenant rappelons enfin que nous avons démontré que la loi
Normale découlait de la loi Binomiale sous certaines conditions
(les praticiens admettent que c'est applicable tant que n>50
et ).
Autrement dit, que la variable aléatoire X suivant
une loi Binomiale suit une loi Normale sous certaines conditions. Évidemment,
si X suit une loi Normale alors X/n aussi
(et donc ...).
Dès lors nous pouvons centrer et réduire afin
qu'il se comporte comme la variable aléatoire centrée réduite notée Z:
(7.146)
Exemple:
Si 5% de la production annuelle d'une entreprise est défectueuse,
quelle est la probabilité qu'en prenant un échantillon de 75 pièces
de la ligne de production que seulement 2% ou moins soit défectueux?
Nous avons dès lors avec:
(7.147)
La probabilité cumulée correspondante à cette valeur de la variable
aléatoire est avec MS Excel:
=NORMSDIST(-1.19)=11.66%
Nous pouvons maintenant approximer l'intervalle pour la proportion
en se basant sur la loi Binomiale et son comportement asymptotiquement
normal dans les conditions démontrées lors de notre introduction
de la loi Normale tel que:
(7.148)
Exemple:
Prenons ,
nous avons alors:
(7.149)
Sur une production de 300 éléments nous en avons trouvé 8 qui étaient
défectueux. Quel est donc l'intervalle de confiance?
Nous vérifions d'abord avec:
(7.150)
que:
(7.151)
Donc il est acceptable d'utiliser l'intervalle de confiance par
la loi Normale. Nous avons dès lors:
(7.152)
Pour clore ce sujet, nous pouvons évidemment nous intéresser
aussi au nombre d'échantillons qu'il faut avoir pour satisfaire
une certaine précision d'intervalle de confiance (imposé) en ayant
un écart-type imposé.
Nous avons donc selon les hypothèses susmentionnées et dans l'acceptation
de l'approximation par une loi Normale que:
(7.153)
Et en procédant de manière identique aux développements effectués
plus haut avec la loi Normale, nous obtenons:
(7.154)
dont nous prenons évidemment normalement la valeur entière supérieure
dans la pratique...
Une question qui revient souvent dans la pratique concerne le
fait de savoir s'il faut prendre en unilatéral ou bilatéral. Rigoureusement,
la détermination des tailles d'échantillons, se fait par construction
mathématique toujours en bilatéral.
Remarque: La taille de la population mère pour les relations
développées plus haut n'entre pas en ligne
de compte dans le calcul des intervalles de confiance
ni dans celui de la taille de l'échantillon, et pour cause,
elle est considérée infinie. Il faut donc faire attention
à ne pas avoir parfois des taills d'échantillons qui sont plus grandes
que la population mère réelle possible...
Exemple:
Nous souhaiterions savoir le nombre d'échantillons à prendre
d'un lot de production sachant que la proportion de défectueux
est imposée à 30% avec une erreur tolérée d'environ 5% entre la
proportion réelle et empirique et ce afin d'obtenir un intervalle
de confiance à un niveau de 95% du résultat:
(7.155)
Remarque: La dernière relation est
très très souvent utilisée
en théorie des sondages (analyses pour des votations avec réponses
de type: Oui/Non) où parfois la taille de l'échantillon n est
imposée pour des raisons de coûts du sondage et dont nous cherchons à calculer
l'incertitude  et
parfois l'inverse (l'incertitude est imposée et donc nous cherchons à connaître
la taille de l'échantillon).
TEST DE L'ÉGALITÉ DE DEUX PROPORTIONS
Toujours dans le même contexte que l'approximation précédente
de la loi Binomiale par une loi Normale, l'industrie (en particulier
la biostatistique) est friande de comparer deux proportions de
deux populations différentes afin de savoir si elles sont
statistiquement égales
ou non (autrement dit: significativement différentes ou
pas).
Dès lors rappelons que nous avons démontré la stabilité de la
loi Normale si deux variables aléatoires étaient indépendantes
et identiquement distribuées (selon une loi Normale donc!):
(7.156)
Dans le cadre des hypothèses susmentionnées il en est alors de
même approximativement pour la différence de deux proportions:
(7.157)
Dès lors nous savons que cette nouvelle variable centrée réduite
suit une loi Normale selon:
(7.158)
et comme nous cherchons à savoir la probabilité cumulée que l'espérance
théorique de la différence est nulle, cette dernière relation se
réduit alors dans ce cas à:
(7.159)
Il semblerait cependant que cette dernière relation approximative
serait d'après l'expérience plus correcte en prenant pour dénominateur:
(7.160)
où sera
pris comme le mélange de deux populations. C'est-à-dire:
(7.161)
soit:
(7.162)
Ce test est aussi appelé "test
Z de l'égalité de deux proportions"
Exemple:
Dans le cadre d'un plan d'échantillonnage (cf.
chapitre de Génie
Industriel) nous avons prélevé sur un premier lot de 50 échantillons,
48 en parfait états. Dans un second lot de 30 échantillons, 26 étaient
en bon état.
Nous avons donc:
(7.163)
Nous souhaiterions donc savoir si la différence est significative
avec une certitude de 95% ou simplement due au hasard. Nous utilisons
alors:
(7.164)
et:
(7.165)
Ce qui correspond à une probabilité cumulée en utilisant MS Excel
de:
=NORMSDIST(1.535)=93.77%
Donc la différence est due au hasard (ceci dit c'est presque
in extremis...). Autrement dit, elle n'est pas significative sous
les contraintes énoncées.
TEST DES SIGNES (TEST DE LA MÉDIANE)
Nous mesurons quelque chose sur un échantillon puis, plus tard,
nous mesurons la même chose sur ce même échantillon (donc il s'agit échantillons
appariés). Les deux classements sont comparés et chaque observation
est affectée d'un signe ("+" en cas d’élévation dans
le classement, "–" en cas de descente). Celles qui restent
au même niveau sont éliminées.
Selon l'hypothèse à tester, il y a autant de + que de –, c'est-à-dire
que la médiane de la distribution n'a pas bougé.
L'idée étant que pour chaque couple de valeurs, il n'y a que
deux signes possibles de variations, nous avons une chance sur
deux (50% de probabilité) que la différence soit positive ou négative.
Il est basé uniquement sur l'étude des signes des différences observées
entre les paires d'individus, quelles que soient les valeurs de
ces différences.
Nous pouvons souhaiter contrôler deux hypothèses:
- L'inégalité des proportions de signes doit être significative.
Donc l'un deux signes doit être en petit nombre par rapport à l'autre,
ce qui correspond à un test unilatéral gauche (la probabilité cumulée
d'avoir ce petit nombre de signes doit être inférieur à un niveau donné).
- La proportion des deux signes doit être faiblement déséquilibrée
( ).
Il s'agit donc dans ce cas d'un test en bilatéral (c'est le cas
le plus courant) avec un certain niveau donné.
Pour pouvoir créer un tel test, nous allons considérons l'apparition
des "+" et des "-" comme un système de tirage
aléatoire binaire dont l'ordre des succès n'est pas pris en compte
(il s'agit donc d'une loi binomiale ou hypergéométrique) et avec
remise (ce qui élimine d'emblée la loi hypergéométrique qui n'est
pas symétrique et pose des problèmes d'utilisation dans la pratique...)
. Pour considérer un tirage aléatoire avec remise (alors qu'on
ne fait pas réellement de remise), il faut que la population N soit
grande. Raison pour laquelle le test du signe considère que les
valeurs appariées doivent être continues.
Exemple:
Considérons deux séries de mesures avec deux méthodes différentes.
Nous souhaiterions tester l'hypothèse avec un niveau de
5% si la différence entre les deux méthodes est significative (nous
nous attendons donc à une équilibre des signes).
20.4, 25.4, 25.6, 25.6, 26.6, 28.6, 28.7, 29,
29.8, 30.5, 30.9, 31.1
20.7, 26.3, 26.8, 28.1, 26.2, 27.3, 29.5, 32, 30.9, 32.3, 32.3,
31.7
Nous avons donc les différences:
-0.3, -0.9, -1.2, -2.5, 0.4, 1.3, -0.8, -3.0,
-1.1, -1.8, -1.4, -0.6
Soit:
-, -, -, -, +, +, -, -, -, -, -, -
Bon il déjà clair que le résultat va être le rejet de l'hypothèse
comme quoi il n'y pas de différence. Mais faisons quand même le
calcul. Comme le test est en bilatéral à un niveau de 5%, la probabilité cumulée
d'avoir obtenu au moins deux signes "+" ne doit pas être
inférieure à 2.5% et pas supérieure à 97.5% si l'on veut accepter
(ne pas rejeter) l'hypothèse comme quoi la différence n'est pas
significative.
Nous avons alors:
(7.166)
Donc la probabilité cumulée est inférieur à 2.5% et n'est de
loin pas supérieure à 97.5%, nous rejetons l'hypothèse comme quoi
la différence n'est pas significative.
Nous pourrions accepter l'hypothèse si nous prenions pour la
valeur:
(7.167)
Donc pour résumer un peu les convergences de lois dans ces différentes
tests et intervalles, nous proposons au lecteur le schéma suivant
qui résume plus ou moins bien les choses:
Figure: 7.4 - Convergence des différentes lois usuelles en inférence statistique élémentaire
LOI FAIBLE DES GRANDS NOMBRES
Nous allons
maintenant nous attarder sur une relation très intéressante
en statistiques qui permet de dire pas mal de choses tout en
ayant peu de données et ce quelle que soit la
loi considérée (ce qui est pas mal quand même!).
C'est une propriété
très utilisée en simulation statistique par exemple
dans le cadre de l'utilisation de Monte-Carlo.
Soit une variable aléatoire à valeurs
dans .
Alors nous allons démontrer la relation suivante appelée "inégalité de
Markov" :
(7.168)
avec dans
le contexte particulier des probabilités.
En d'autres termes, nous proposons
de démontrer
que la probabilité qu'une variable aléatoire soit plus grande ou égale
qu'une valeur est
inférieure ou égale à son espérance divisée par la valeur considérée et
ce quelle que soit la loi de distribution de la variable aléatoire
X!
Démonstration:
Notons les valeurs de X par ,
où (c'est-à-dire
triées par ordre croissant) et posons .
Nous remarquons d'abord que l'inégalité est triviale
au cas où .
Effectivement, comme X ne peut être compris qu'entre 0 et
par
définition alors la probabilité qu'il soit supérieur à est
nulle. En d'autres termes :
(7.169)
et X étant
positif, E(X) l'est
aussi, d'où l'inégalité pour ce cas particulier dans un premier
temps.
Sinon, nous avons et
il existe alors un tel
que .
Donc :
(7.170)
C.Q.F.D.
Exemple:
Nous supposons que le nombre
de pièces sortant
d'une usine donnée en l'espace d'une semaine est une variable aléatoire
d'espérance 50. Si nous souhaitons estimer la probabilité cumulée
que la production dépasse 75 pièces nous appliquerons simplement :
(7.171)
Considérons maintenant une sorte de
généralisation
de cette inégalité appelée "inégalité de
Bienaymé-Tchebychev" (abrégée "inégalité BT")
qui va nous permettre d'obtenir un résultat très
très très intéressant et important un
peu plus bas.
Considérons une variable aléatoire X.
Alors nous allons démontrer l'inégalité de Bienaymé-Tchebychev suivante:
(7.172)
qui exprime le fait que plus l'écart-type est petit, plus
la probabilité que la variable aléatoire X s'éloigne
de son espérance est faible.
Nous obtenons cette inégalité en écrivant d'abord :
(7.173)
où le choix du carré va nous
servir pour une simplification future.
Puis en appliquant l'inégalité de Markov (comme
quoi c'est quand même utile...) à la variable aléatoire avec il
vient automatiquement :
(7.174)
Ensuite, en utilisant la définition de la variance:
(7.175)
Nous obtenons bien:
(7.176)
Si nous posons:
(7.177)
l'inégalité s'écrit:
(7.178)
et exprime que la probabilité qu'afin que X s'éloigne
de son espérance de plus que t fois son écart-type,
est inférieure à .
Il y a, en particulier, moins de 1 chance sur 9 pour que X s'éloigne
de son espérance de plus de trois fois l'écart-type.
Exemple:
Nous reprenons l'exemple où le nombre de pièces
sortant d'une usine donnée en l'espace d'une semaine est une variable
aléatoire d'espérance 50. Nous supposons en plus que la variance
de la production hebdomadaire est de 25. Nous cherchons à calculer
la probabilité que la production de la semaine prochaine soit comprise
entre 40 et 60 pièces.
Pour calculer ceci il faut d'abord
se souvenir que l'inégalité de BT est basée en parties sur le
terme donc
nous avons :
(7.179)
donc l'inégalité de BT nous permet bien de travailler
sur des intervalles égaux en valeur absolue ce qui s'écrit aussi :
(7.180)
Ensuite, ne reste plus qu'à appliquer simplement
l'inégalité numériquement :
(7.181)
Ces deux
dernières inégalités vont nous permettre d'obtenir
une relation très importante et puissante que nous appelons la "loi
faible des grands nombres" (L.F.G.N.) ou encore "théorème
de Khintchine".
Considérons une variable aléatoire X admettant
une variance et une
suite de variables aléatoires indépendantes (donc non corrélées
deux-deux) de même loi que X et ayant toutes les mêmes espérances et
les mêmes écarts-types .
Ce que nous allons montrer est
que si nous mesurons une même quantité aléatoire de
même loi au cours d'une suite d'expériences indépendantes
(alors dans ce cas, nous disons techniquement que la suite de
variables aléatoires est définie sur le même espace
probabilisé),
alors la moyenne arithmétique des valeurs observées
va se stabiliser sur l'espérance de X quand le nombre
de mesures est infiniment élevé.
De manière formelle ceci s'exprime sous la forme :
(7.182)
lorsque c'est
cela le résultat très important dont nous faisions
mention plus haut! L'estimateur empirique de la moyenne tend donc
pour toute
loi vers l'espérance vraie si n est grand! Donc
de par la même nous assurons que la moyenne empirique est
un estimateur convergent de l'espérance!
Donc en d'autres termes la probabilité cumulée
que la différence entre la moyenne arithmétique et
l'espérance
des variables aléatoires observées soit comprise
dans un intervalle autour de la moyenne tend vers zéro quand
le nombre de variables aléatoires mesurées tend vers
l'infini (ce qui est finalement intuitif).
Ce résultat nous permet d'estimer l'espérance mathématique en
utilisant la moyenne empirique (arithmétique) calculée sur un très
grand nombre d'expériences.
Démonstration:
Nous utilisons l'inégalité de Bienaymé-Tchebychev
pour la variable aléatoire (cette relation s'interprète difficilement
mais permet d'avoir le résultat escompté):
(7.183)
Et nous calculons d'abord en
utilisant les propriétés
mathématiques de l'espérance que nous avions démontrées plus
haut:
(7.184)
et dans un deuxième temps en utilisant les propriétés
mathématiques de la variance aussi déjà démontrées plus haut :
(7.185)
et puisque nous avons supposé les variables
non corrélées entre elles alors la covariance est nulle dès lors :
(7.186)
Donc en injectant cela dans l'inégalité BT :
(7.187)
nous avons alors :
(7.188)
qui devient:
(7.189)
et l'inégalité tend bien vers zéro quand n au
dénominateur tend vers l'infini.
C.Q.F.D.
Signalons que cette dernière relation est souvent notée dans
certains ouvrages et conformément à ce que nous avons
vu au début
de ce chapitre:
(7.190)
ou encore:
(7.191)
Donc, pour :
(7.192)
FONCTION CARACTÉRISTIQUE
Avant de donner une démonstration à la manière
de l'ingénieur du théorème
central limite, introduisons d'abord le concept de "fonction
caractéristique" qui tient une place centrale
en statistiques.
D'abord, rappelons que la transformée de Fourier est donnée dans
sa version physicienne par (cf. chapitre
de Suites et Séries) la
relation:
(7.193)
Rappelons que la transformation de Fourier est un analogue
de la théorie des séries de Fourier pour les fonctions
non périodiques, et permet de leur associer un spectre en
fréquences.
Nous souhaitons maintenant démontrer que si:
alors
(7.194)
En d'autres termes, nous cherchons une expression simplifiée
de la transformée de Fourier de la dérivée de f(x).
Démonstration:
Nous partons donc de:
(7.195)
Une intégration par parties donne :
(7.196)
En imposant que, f tend vers zéro à l'infini, nous
avons alors:
(7.197)
et:
(7.198)
C'est le premier résultat dont nous avions besoin.
C.Q.F.D.
Maintenant, démontrons que si:
alors
(7.199)
Démonstration:
Nous partons donc de:
(7.200)
C'est le deuxième résultat dont nous avions besoin.
C.Q.F.D.
Maintenant effectuons le calcul de la transformée de Fourier
de la loi Normale centrée-réduite (ce choix n'est
pas innocent...):
(7.201)
Nous savons que cette dernière relation est trivialement solution
de l'équation différentielle (ou bien elle vérifie):
(7.202)
en prenant la transformée de Fourier des deux côté de l'égalité,
nous avons en utilisant les deux résultats précédents:
alors
(7.203)
alors 
Nous avons:
(7.204)
Ou encore:
(7.205)
Donc après intégration:
(7.206)
Nous avons:
(7.207)
Nous avons démontré lors de notre étude de la loi Normale
que:
(7.208)
Donc:
(7.209)
Nous avons alors (résultat important!):
(7.210)
Introduisons maintenant la fonction caractéristique telle que
définie par les statisticiens:
(7.211)
qui est un outil analytique important et puissant permettant
d'analyser une somme de variables aléatoires indépendantes.
De plus, cette fonction contient toutes les informations caractéristiques
de la variable aléatoire X.
Remarque:
La notation n'est pas innocente puisque le E[...]
représente une espérance de la fonction de densité par
rapport à l'exponentielle
complexe.
Donc la fonction caractéristique de la variable aléatoire normale
centrée réduite de distribution:
(7.212)
devient simple à déterminer car:
(7.213)
raison pour laquelle la fonction caractéristique de la loi Normale
centrée réduite est souvent assimilée à une simple
transformée
de Fourier.
Et grâce au résultat précédent:
(7.214)
Donc:
(7.215)
qui est le résultat dont nous avons besoin pour le théorème central
limite.
Mais avant cela, regardons d'un peu plus près cette fonction
caractéristique:
(7.216)
En développement de Maclaurin nous avons (cf.
chapitre Suites et Séries) et en changeant un peu les notations:
(7.217)
et en intervertissant la somme et l'intégrale, nous avons:
(7.218)
Cette fonction caractéristique contient donc tous les moments
(terme général utilisé pour l'écart-type et l'espérance) de X.
THÉORÈME CENTRAL LIMITE
Le théorème central limite est un ensemble de résultats
du début du 20ème siècle sur la convergence
faible d'une suite de variables aléatoires en probabilité.
Intuitivement, d'après
ces résultats, toute somme (implicitement: la moyenne
de ses variables) de variables aléatoires indépendantes
et identiquement distribuées tend vers une certaine variable
aléatoire. Le résultat
le plus connu et le plus important est simplement appelé "théorème
central limite" qui concerne une somme de variables
aléatoires indépendantes avec variance existante dont le
nombre tend vers l'infini et c'est celui-ci que nous allons démontrer
de manière
heuristique ici.
Dans le cas le plus simple, considéré ci-dessous
pour la démonstration
du théorème, ces variables sont continues, indépendantes
et possèdent
la même moyenne et la même variance. Pour tenter d'obtenir un résultat
fini, il faut centrer cette somme en lui soustrayant sa moyenne
et la réduire en la divisant par son écart-type.
Sous des conditions assez larges, la loi de probabilité (de
la moyenne) converge alors vers une loi Normale centrée
réduite. L'omniprésence de la loi
Normale s'explique par le fait que de nombreux phénomènes
considérés
comme aléatoires sont dus à la superposition de causes nombreuses.
Ce théorème de probabilités possède donc une interprétation en
statistique mathématique. Cette dernière associe une loi de probabilité à une
population. Chaque élément extrait de la population est donc considéré comme
une variable aléatoire et, en réunissant un nombre n de
ces variables supposées indépendantes, nous obtenons un échantillon.
La somme de ces variables aléatoires divisée par n donne
une nouvelle variable nommée la moyenne empirique. Celle-ci, une
fois réduite, tend vers
une variable Normale réduite lorsque n tend vers l'infini
comme nous le savons.
Le théorème central limite nous dit à quoi il faut s'attendre
en matière de sommes de variables aléatoires indépendantes. Mais
qu'en est-il des produits ? Eh bien, le logarithme d'un
produit (à facteurs strictement positifs) est la somme des logarithmes
des facteurs, de sorte que le logarithme d'un produit de variables
aléatoires (à valeurs strictement positives) tend vers une loi
Normale, ce qui entraîne une loi log-Normale pour le produit lui-même.
En elle-même, la convergence vers la loi Normale ("normalité
asymptotique") de nombreuses sommes de variables aléatoires
lorsque leur nombre tend vers l'infini n'intéresse que le
mathématicien.
Pour le praticien, il est intéressant
de s'arrêter un peu avant la limite : la somme d'un grand
nombre de ces variables est presque gaussienne, ce qui fournit
une approximation souvent plus facilement utilisable que la loi
exacte.
En s'éloignant encore plus de la théorie, on peut dire que bon
nombre de phénomènes naturels sont dus à la superposition de causes
nombreuses, plus ou moins indépendantes. Il en résulte que la loi
Normale les représente de manière raisonnablement efficace.
A l'inverse, on peut dire qu'aucun phénomène concret
n'est vraiment Gaussien car il ne peut dépasser certaines
limites, en particulier s'il est à valeurs positives.
Démonstration:
Soit une
suite (échantillon) de variables aléatoires continues
(dans notre démonstration simplifiée...), indépendantes
(mesures de phénomènes
physiques ou mécaniques indépendants par exemple)
et identiquement distribuées, dont la moyenne et
l'écart-type existent
(ce qui signifie que le théorème central limite fonctionne que
pour les phénomènes à variance finie!!!).
Nous avons vu au début de ce chapitre que:
(7.219)
sont les mêmes expressions d'une variable centrée réduite générée
à l'aide d'une suite de n variables aléatoires
identiquement distribuées qui par construction a donc une moyenne
nulle et une variance unitaire:
et
(7.220)
Développons la première forme de l'égalité antéprécédente
(les 2 sont de toute façon égales!):
(7.221)
Maintenant utilisons la fonction caractéristique de la
loi Normale centrée-réduite (nous allégeons
par la même occasion l'écriture des estimateurs de
la moyenne et de l'écart-type):
(7.222)
Comme les variables aléatoires sont
indépendantes et identiquement distribuées, il vient:
(7.223)
Un développement de Taylor du terme entre accolades donne
au troisième ordre:
(7.224)
Finalement:

(7.225)
Posons:
(7.226)
Nous avons alors:
(7.227)
Nous avons donc quand x tend vers l'infini (cf.
chapitre d'Analyse fonctionnelle):
(7.228)
Nous retrouvons donc la fonction caractéristique de la loi Normale
centrée réduite!
En deux mots, le Théorème Central Limite (TCL) dit que pour de
grands échantillons, la somme centrée
et réduite de n variables
aléatoires identiquement distribuées suit
une loi Normale centrée et réduite. Et
donc nous avons in extenso pour la moyenne empirique:
(7.229)
Malgré l'immensité de son champ d'applications, le TCL n'est
pas universel. Dans sa forme la plus simple, il impose en
particulier à la variable considérée d'avoir des moments du premier
et du deuxième ordre (moyenne et variance). Si tel n'est pas le
cas, il ne s'applique plus.
L'exemple le plus simple d'échec du TLC est donné par la distribution
de Cauchy, qui n'a ni moyenne, ni variance, et dont la moyenne
empirique a toujours la même distribution (Cauchy) quelle que soit
la taille de l'échantillon.
Maintenant, nous allons illustrer le théorème central limite
dans le cas d'une suite de
variables aléatoires indépendantes discrètes suivant une loi de
Bernoulli de paramètre 1/2.
Nous pouvons imaginer que représente
le résultat obtenu au n-ème lancé d'une pièce de monnaie
(en attribuant le nombre 1 pour pile et 0 pour face). Notons:
(7.230)
la moyenne. Nous avons pour tout n bien évidemment:
(7.231)
et donc:
(7.232)
Après avoir centré et réduit nous
obtenons:
(7.233)
Notons la
fonction de répartition de la loi Normale centrée réduite.
Le théorème central limite nous dit que pour tout :
(7.234)
A l'aide de Maple nous avons tracé en bleu quelques graphiques
de la fonction:
(7.235)
pour différentes valeurs de n. Nous avons représenté en
rouge la fonction .
:

Figure: 7.5 - Première approche de la loi de Bernoulli par le loi Normale selon
le
TCL
:

Figure: 7.6 - Deuxième approche de la loi de Bernoulli par le loi Normale selon
le
TCL


Figure: 7.7 - Troisième approche de la loi de Bernoulli par le loi Normale selon
le
TCL


Figure: 7.8 - Quatrième approche de la loi de Bernoulli par le loi Normale selon
le
TCL
Ces graphiques obtenus avec Maple à l'aide des commandes suivantes:
> with(stats):
>
with(plots):
>
e1:=plot(Heaviside(t+1)*statevalf[dcdf,binomiald[1,0.5]](trunc((t+1)/2)),t=-2..2,y=0..1,color=blue):
>
e2:=plot(Heaviside(t+sqrt(2))*statevalf[dcdf,binomiald[2,0.5]](trunc((t*sqrt(2)+2)/2)),t=-sqrt(2)-1..sqrt(2)+1,y=0..1,color=blue):
>
e3:=plot(Heaviside(t+sqrt(5))*statevalf[dcdf,binomiald[5,0.5]](trunc((t*sqrt(5)+5)/2)),t=-sqrt(5)-1..sqrt(5)+1,y=0..1,color=blue):
>
e4:=plot(statevalf[cdf,normald](t),t=-5..5):
>
e5:=plot(Heaviside(t+sqrt(30))*statevalf[dcdf,binomiald[30,0.5]](trunc((t*sqrt(30)+30)/2)),t=-sqrt(30)-1..sqrt(30)+1,y=0..1,color=blue):
>
display({e1,e4});
>
display({e2,e4});
>
display({e4,e3});
>
display({e5,e4});
montrent
bien la convergence de vers .
En fait nous remarquons que la convergence est carrément uniforme
ce qui est confirmé par le "théorème central limite de Moivre-Laplace":
Soit une
suite de variables aléatoires indépendantes de même loi de Bernoulli
de paramètre p, .
Alors:
(7.236)
tend uniformément vers sur lorsque . TESTS D'HYPOTHÈSE (OU D'ADÉQUATION)
Lors de notre étude des intervalles de confiance, rappelons
que nous sommes arrivés aux quelques relations suivantes
(ce n'est que l'échantillon des plus importantes démontrées
plus haut!):
(7.237)
et:
(7.238)
et:
(7.239)
et enfin:
(7.240)
qui permettaient donc de faire de l'inférence
statistique en fonction de la connaissance ou non de la moyenne
ou de la variance vraie
sur la totalité ou sur un échantillon de la population.
En d'autres termes de savoir dans quelles bornes se situait un
moment (moyenne
ou variance) en fonction d'un certain niveau de confiance imposé.
Nous avions vu que le deuxième intervalle ci-dessus ne peut être
que difficilement utilisé dans la pratique (suppose la moyenne
théorique
connue)
et nous lui préférons donc le troisième.
Nous allons également démontrer en
détails plus loin
les deux intervalles suivants:
(7.241)
et:
(7.242)
Le premier intervalle
ci-dessus ne peut être lui aussi que difficilement utilisé dans
la pratique (suppose la moyenne théorique connue) et
nous lui préférons donc le deuxième.
Lorsque nous cherchons à savoir si nous pouvons
faire confiance à la valeur d'une statistique (moyenne,
médiane, variance, coefficient de corrélation, etc.) avec une certaine
certitude, nous parlons de "test
d'hypothèse" et plus particulièrement
de "test
de conformité" (nous parlons de "test
d'adéquation"
quand il s'agit de vérifier que des mesures suivante bien
une loi donnée et non juste une statistique).
Les tests d'hypothèses sont destinés à vérifier
si un échantillon peut être considéré comme
extrait d'une population donnée ou représentatif
de cette population, vis-à-vis d'un paramètre comme
la moyenne, la variance ou la fréquence observée.
Ceci implique que la loi théorique du paramètre soit
connue au niveau de la population.
Par exemple, si nous souhaitons savoir avec une
certaine confiance si une moyenne donnée d'un échantillon
de population est réaliste par rapport à la vraie moyenne théorique
inconnue, nous utiliserons le "test-Z" qui
est simplement:
(7.243)
Maintenant rappelons que nous avons démontré que si nous avions
deux variables aléatoires de loi:
(7.244)
alors la soustraction (différencier) des moyennes donne:
(7.245)
Donc pour la différence de deux moyennes de variables aléatoires
provenant de deux échantillons de population nous obtenons directement:
(7.246)
Nous pouvons alors adapter le test-Z sous la forme:
(7.247)
La relation qui est très utile lorsque pour deux échantillons
de deux populations de données, nous voulons vérifier
s'il existe une différence significative des différences
des moyennes théoriques à un
niveau de confiance fixé
et la probabilité associée pour avoir
cette différence:
(7.248)
Donc:
(7.249)
Nous parlons du "test-Z de
la moyenne à deux échantillons" et il est beaucoup utilisé
dans l'industrie pour vérifier l'égalité de la moyenne de deux populations
de mesures.
Et si l'écart-type théorique n'est
pas connu, nous utiliserons le "test-T"
de Student (pas mal utilisé en pharmaco-économie)
démontré plus haut:
(7.250)
Dans la même idée pour l'écart-type,
nous utiliserons le "test du khi-deux" aussi
déjà démontré plus haut:
(7.251)
Et lorsque nous voulons tester l'égalité de
la variance de deux populations nous utilisons le "test-F"
de Fisher (démontré plus bas lors de notre étude
de l'analyse de la variance):
(7.252)
Le fait que nous obtenions alors l'ensemble des
valeurs satisfaisant à ce test borné à droite
et (!) à gauche est
ce que nous appelons dans le cas général un "test
bilatéral" car il comprend le test unilatéral à gauche
et unilatéral à droite. Ainsi, tous les tests
susmentionnés
sont dans une forme bilatérale mais nous pourrions en faire
une analyse unilatérale aussi! Nous utilisons un test unilatéral
lorsque la différence attendue ne peut aller que dans un
sens (typiquement dans le cas des essais cliniques ou lors d'un
action corrective de contrôle qualité en industrie
pour laquelle nous nous attendons à une amélioration
allant dans une unique direction). Les test unilatéraux sont parfois
nommés "test de non-infériorité" (unilatéral gauche) ou "test
de non-supériorité" (unilatéral droite).
Ci-dessous, nous avons représenté
par exemple un test unilatéral à droite (car la région
de rejet est à droite et donc la probabilité cumulée est
unilatérale gauche) et un test bilatéral:
Figure: 7.9 - Illustration d'un test (ou intervalle de confiance) unilatéral
à droite et bilatéral
Signalons aussi que les tests d'hypothèses
sur l'écart-type
(variance), la moyenne ou la corrélation sont
appelés
des "tests
paramétriques" à l'inverse des tests
non-paramétriques que nous verrons plus loin.
Remarques:
R1. Il
existe également une autre définition du concept
de test paramétrique
et non-paramétrique (un peu différente car plus
précise)
à voir plus loin...
R2. Attention! Certains auteurs ou professeurs parlent parfois
de test "unilatéral à gauche" pour un "test unilatéral à droite"...
Au fait il s'agit simplement d'un choix de vocabulaire. Si la
référence pédagogique n'est pas la zone de rejet mais la zone
d'acception, alors il est clair que les concepts de droite de
gauche s'inversent...
Enfin, de nombreux logiciels calculent ce que nous
appelons la "p-value" qui
est le
risque calculé (probabilité) qu'aurait
pu fixer le statisticien pour être à la limite entre
l'acceptation de l'hypothèse nulle et son rejet. La p-value
est donc une valeur fondamentale
dans le
domaine car elle permet de chiffrer la vraisemblance
de l'hypothèse
nulle (acception
ou rejet).
Pour un test d'hypothèse, par exemple, le
5% de risque
est
celui de rejeter l'hypothèse nulle alors
même
qu'elle est vraie. Si le risque imposé/choisi est 5% et
que la p-value
calculée est inférieure (dans la majorité des
tests mais il faut
être prudent car ce n'est pas une généralité!!!),
le test échoue
(rejet de l'hypothèse) en faveur d'une hypothèse
alternative notée ou
parfois
.
L'hypothèse alternative a bien évidemment elle-même
son propre risque que nous notons et
sa propre p-value.
Peut-être, pour mieux comprendre, voici une
illustration d'un cas particulier d'un test d'hypothèse
bilatéral
de la moyenne pour une variable aléatoire suivant typiquement
une loi Normale (en gros c'est le même principe pour tous
les tests...):
Figure: 7.10 - Hypothèse nulle et alternative d'un test bilatéral particulier
Ainsi, dans le cas présenté ci-dessus,
nous voyons mieux pourquoi l'hypothèse
nulle peut donc être acceptée ou rejetée en
faveur de l'hypothèse
alternative (qui est de même loi que l'hypothèse nulle
mais juste décalée) dépendant de la valeur
de référence
mesurée qui sera utilisée pour le test (en l'occurence
dans le cas particulier il s'agit de la moyenne arithmétique des
mesures).
Nous remarquons
aussi que la zone rouge de l'hypothèse
alternative, correspondant à la probabilité cumulée ,
est confondue en partie avec la partie jaune de l'hypothèse
nulle. Raison pour laquelle nous pouvons parfois accepter l'hypothèse
nulle à tort. Nous voyons cependant que plus serait
petit, plus l'hypothèse alternative serait donc éloignée
de la zone limite rouge de l'hypothèse nulle (cela correspondrait à une
translation vers la droite dans le cas présent) et moins
la probabilité
de faire une fausse conclusion est grande. Raison pour laquelle
nous parlons de "risque " car
plus celui-ci est petit, mieux c'est. In extenso, plus est
grand, moins il y a de risque de confondre l'hypothèse nulle et
alternative. Raison pour laquelle est
appelé "puissance du test".
Nous acceptons l'hypothèse nulle
si la p-value est plus grande que 5% (0.05). Au fait,
plus la p-value est grande, mieux c'est car l'intervalle
de confiance est de plus en plus petit. Si l'intervalle de confiance
vient à être énorme (très proche de
100%) car la p-value
est très petite alors l'analyse n'a plus vraiment de sens
physiquement parlant!
Ainsi, si la p-value est faible, c'est
qu'il faudrait prendre un risque faible de se tromper, donc accepter
dans presque tous les cas l'hypothèse testée...
Remarque:
Nous ne devrions
jamais dire que nous "acceptons" une hypothèse
ou encore qu'elle est "vraie" ou "fausse"
car ces termes sont trop forts et pourraient faire penser à une
preuve scientifique. Nous devrions dire si nous "rejetons"
ou "ne rejetons pas" l'hypothèse et qu'elle
est éventuellement "correcte" ou
"non correcte".
Pour les test d'hypothèses bilatéraux, nous pouvons par exemple
dire que nous avons (ou n'avons pas) une différence significative
entre la valeur de référence
mesurée et la valeur attendue. Pour les tests unilatéraux, nous
pouvons dire que la valeur de référence mesurée est significativement
plus grande ou plus petite que la valeur attendue.
Par ailleurs si le lecteur a bien compris
la construction des tests d'hypothèses, le fait de rejeter
une hypothèse à tort ("Erreur
de Type I" ou "Erreur
de première espèce") est donc plus robuste
que de l'accepter à tort
("Erreur de type II" ou "Erreur
de deuxième
espèce").
Le lecteur remarquera aussi en s'aidant de la figure précédent
qu'un test unilatéral a une plus forte puissance qu'un test unilatéral
(a même niveau de risque bien entendu!). Ainsi, une différence
non significative en test bilatéral, peut s'avérer non significative
en unilatéral.
Pour clore, voici les trois situations types de tests d'hypothèses
sur la statistique qu'est la moyenne dans le cadre d'une distribution
sous-jacente normale et dont l'espérance est dans ce cas
particulier supposée nulle et de variance unitaire (car
on peut très souvent ce ramener à ce cas particulier
en centrant et réduisant la variable aléatoire sous-jacente):
Figure: 7.11 - Les trois scénarios possibles d'un test d'hypothèse sur
la moyenne
Indiquons que cela n'a aucun sens (contrairement à ce que
nous pouvons parfois lire sur certains supports papier ou électronique)
d'avoir les hypothèses nulles suivantes dans le cas paticulier
représenté ci-dessus:
(7.253)
avec l'hypothèse alternative qui en découle automatiquement
(je ne l'ai pas écrite car c'est inutile). La raison en
est simple: comment pourriez-vous positioner votre
distribution Normale centrée réduite si l'espérance
n'est pas fixée...??? Raison
pour laquelle l'hypothèse nulle dans le cadre des tests
sur la moyenne (et d'un certain autre nombre de tests) est toujours
une
égalité!
Pour résumer, nous pouvons dire que si nous prenons une décision,
nous pouvons nous tromper et il vaut mieux éviter
de se tromper souvent. En clair, la probabilité de dire
une bêtise
doit être connue et de préférence petite.
Nous allons dans ce qui suit
démontrer l'origine du test-F de
Fisher et par la même occasion nous introduirons deux autres
tests qui sont le "test-T homoscédastique" et
le "test-T hétéroscédastique".
ANALYSE
DE LA VARIANCE (À UN FACTEUR)
L'objectif de l'analyse de la variance (contrairement à ce
que son nom pourrait laisser penser) est une technique
statistique
permettant
de comparer les moyennes de deux populations ou plus (très
utilisé
dans le pharma ou dans les labos de R&D ou de bancs d'essais).
Cette méthode,
néanmoins, doit son nom au fait qu'elle utilise des mesures
de variance afin de déterminer le caractère significatif,
ou non, des différences de moyennes mesurées sur
les populations.
Plus précisément, la vraie signification est
de savoir si le fait que des moyennes d'échantillons sont
(légèrement)
différentes peut être attribué au hasard
de l'échantillonnage ou provient du fait qu'un facteur
de variabilité engendre réellement des échantillons
significativement différents (si nous avons les
valeurs de toute la population, nous n'avons rien à faire!).
Pour l'analyse de la variance appelée "ANOVA
à un facteur" (ANalysis
Of VAriance) ou "ANAVAR à un
facteur" (ANAlyse
de la VARiance), ou encore "ANOVA à une
voie", nous allons d'abord
rappeler, comme nous l'avons démontré,
que la loi de Fisher-Snedecor est donnée
par le rapport de deux variables aléatoires indépendantes
qui suivent une loi du khi-deux et divisée
par leur degré de liberté tel que:
(7.254)
et nous allons voir maintenant son importance.
Considérons un échantillon aléatoire de
taille n, disons issu
de la loi et
un échantillon aléatoire de taille m, disons issu
de la loi .
Considérons les estimateurs du maximum de vraisemblance
de l'écart-type
de la loi Normale traditionnellement notés dans le domaine
de l'analyse de la variance par:
et
(7.255)
Les statistiques ci-dessus sont celles que nous utiliserions
pour estimer les variances si les moyennes théoriques étaient
connues. Donc nous pouvons utiliser un résultat démontré plus
haut lors de notre étude des intervalles de confiance:
(7.256)
Comme les sont
indépendantes des (hypothèse!),
les variables:
(7.257)
sont indépendantes l'une de l'autre.
Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:
et
(7.258)
ainsi que:
et
(7.259)
Nous avons donc:
(7.260)
Soit:
(7.261)
Ce théorème nous permet de déduire l'intervalle
de confiance du rapport de deux variances lorsque la moyenne théorique
est connue. Puisque la fonction de Fisher n'est pas symétrique,
la seule possibilité pour
faire l'inférence c'est de faire appel au calcul numérique
et nous noterons alors pour un intervalle de confiance donné le
test de la manière
suivante:
(7.262)
Dans le cas où les moyennes sont
inconnues, nous utilisons les estimateurs sans biais des variances
traditionnellement notés dans le domaine de l'analyse de
la variance par:
et
(7.263)
Pour estimer les variances théoriques, nous utilisons le résultat
démontré plus haut:
et
(7.264)
Comme les sont
indépendantes des (hypothèse!),
les variables:
(7.265)
sont indépendantes l'une de l'autre. Nous pouvons donc appliquer
la loi de Fisher-Snedecor avec:
et
(7.266)
ainsi que:
et
(7.267)
Nous avons donc:
(7.268)
Soit:
(7.269)
Ce théorème nous permet de déduire l'intervalle
de confiance du rapport de deux variances lorsque la moyenne empirique
est connue.
Puisque la fonction de Fisher n'est pas symétrique, la seule
possibilité pour
faire l'inférence c'est de faire appel au calcul numérique
et nous noterons alors pour un intervalle de confiance donné
le "test de Fisher" de la manière suivante:
(7.270)
tout en se rappelant que son utilisation nécessite implicitement
des contraintes de normalité des variables étudiées.
R. A. Fisher (1890-1962) est, comme Karl Pearson, l'un des principaux
fondateurs de la théorie moderne de la statistique. Fisher étudia à Cambridge
où il obtint en 1912 un diplôme en astronomie. C'est en étudiant
la théorie de l'erreur dans les observations astronomiques que
Fisher s'intéressa à la statistique. Fisher est l'inventeur de
la branche de la statistique appelée l'analyse de la variance.
Au début du 20ème siècle, R. Fischer développe
donc la méthodologie
des plans d'expérience (cf. chapitre
de Génie Industriel).
Pour valider l'utilité d'un
facteur, il met au point un test permettant d'assurer que des échantillons
différents sont de natures différentes. Ce test est
basé sur l'analyse
de la variance (des échantillons), et nommé ANOVA
(analyse normalisée
de la variance).
Prenons k échantillons
de n valeurs aléatoires chacun (appelé "facteur
explicatif" dans
l'analyse de la variance). Chacune des valeurs étant considérée
comme une observation ou une mesure de quelque chose ou sur la
base de quelque chose (un lieu différent, ou un objet différent...
bref: un seul et unique facteur de variabilité entre les échantillons!).
Nous aurons donc un nombre total de N d'observations
(mesures) donné
par:
(7.271)
si chacun des échantillons a un nombre identique de valeurs
(taille de l'échantillon) tel que nous
parlons alors de "plan équilibré" à k niveaux
(ou k modalités).
Remarque: Si nous avons plusieurs
facteurs de variabilité (par
exemple: chaque lieu compare à lui-même plusieurs
laboratoires), nous parlerons alors d'ANOVA multifactorielle. Dès
lors, s'il n'y a que deux facteurs de variabilité, nous
parlons d'ANOVA à deux facteurs (voir plus loin pour plus
de détails).
Nous considérerons que chacun des k échantillons est
issu (suit) d'une variable aléatoire suivant une loi Normale.
En termes de test, nous voulons tester si les moyennes des k échantillons
sont égales sous l'hypothèse que leurs variances sont égales. Ce
que nous écrivons sous forme d'hypothèse de la manière suivante:
(7.272)
Autrement dit: les échantillons sont représentatifs
d'une même
population (d'une même loi statistique). C'est-à-dire que
les variations constatées entre les valeurs des différents échantillons
sont dues essentiellement au hasard. Pour cela nous étudions
la variabilité des résultats dans les échantillons
et entre les échantillons. Il revient exactement au même
de poser que (formulation qu'on retrouve dans certains articles
ou
ouvrages):
(7.273)
Nous noterons i l'indice d'échantillon (de 1 à k)
et j l'indice de l'observation (de 1 à n). Donc sera
la valeur de la j-ème observation de l'échantillon
de données
numéro i.
Comme dans la pratique les échantillons i sont
souvent représentés en colonnes et les observations j en
ligne, l'indice ij se lit alors dans le sens opposé
à celui vu dans le chapitre d'Algèbre Linéaire
pour les matrices (i étant ici la colonne et j la
ligne).
Mais ceci dit, la permutation des indices ne change en rien les
résultats
des développements qui vont suivre!
Selon l'hypothèse susmentionnée, nous avons:
(7.274)
Nous noterons par la
moyenne empirique/estimée (arithmétique) de l'échantillon i:
(7.275)
et la
moyenne empirique/estimée des N valeurs (soit la moyenne
des )
donnée donc par:
(7.276)
En utilisant les propriétés de l'espérance et de la variance
déjà démontrées plus haut nous savons que:
et
(7.277)
avec qui
est la moyenne des moyennes vraies :
(7.278)
Maintenant, introduisons la "variance
totale" comme étant
la variance estimée sans biais en considérant l'ensemble des N observations
comme un seul échantillon:
(7.279)
où le terme au numérateur est appelé "somme
des carrés des écarts totaux".
La "variance entre échantillons" (c'est-à-dire
entre les moyennes des échantillons) est l'estimateur de
la variance des moyennes des échantillons:
(7.280)
où le terme au numérateur est appelé "somme
des carrés des écarts entre échantillons".
Comme nous avons démontré que si toutes les variables sont identiquement
distribuées (même variance) la variance des individus vaut n fois
celle de la moyenne:
(7.281)
alors la "variance des observations" (variables aléatoires
dans un échantillon) est donnée par:
(7.282)
Nous avons donc ci-dessus l'hypothèse de l'égalité des variances
qui est exprimée sous forme mathématique pour les développements à suivre.
La "variance résiduelle" est l'effet des facteurs
dits non contrôlés.
C'est par définition la moyenne des variances des échantillons.
(7.283)
où le terme au numérateur est appelé "somme
des carrés des écarts des résidus".
Au final, ces indicateurs sont parfois résumés
sous la forme suivante:
(7.284)
Remarquons que si les échantillons n'ont pas la même taille (ce
qui est rare), nous avons alors:
(7.285)
Remarques:
R1. Le terme est
souvent indiqué dans l'industrie par l'abréviation SST signifiant
en anglais "Sum of Squares Total" ou
plus rarement TSS pour
"Total Sum of Squares".
R2. Le terme est
souvent indiqué dans l'industrie par l'abréviation SSB signifiant
en anglais "Sum of Squares Between (samples)" ou
plus rarement SSk pour
"Sum of Squares Between treatments".
R3. Le terme est
souvent indiqué dans l'industrie par l'abréviation SSW signifiant
en anglais "Sum of Squares Within (samples)"
ou plus rarement SSE pour
"Sum of Squares due to Errors".
Indiquons que nous voyons souvent dans la littérature (nous réutiliserons
un peu plus loin cette notation):
(7.286)
avec donc l'estimateur sans biais de la variance des observations:
(7.287)
Avant d'aller plus loin, arrêtons-nous sur la variance résiduelle.
Nous avons donc pour des échantillons qui ne sont pas
de même taille:
(7.288)
Ouvrons maintenant une petite parenthèse... Prenons le
cas particulier de deux échantillons seulement. Nous pouvons
alors écrire:
(7.289)
Soit en introduisant l'estimateur du maximum de vraisemblance
de la variance:
(7.290)
Nous pouvons d'ailleurs observer que dans le cas particulier
où:
(7.291)
alors:
(7.292)
Donc:
(7.293)
Supposons maintenant que nous souhaitions comparer avec un certain
intervalle de confiance la moyenne de deux populations ayant une
variance différente pour savoir si elles sont de natures différentes
ou non.
Nous connaissons pour le moment deux tests pour vérifier
les moyennes. Le test-Z et le test-T. Comme dans
l'industrie il est rare que nous ayons le temps de prendre des
grands échantillons,
concentrons-nous sur le deuxième que nous avions démontré plus
haut:
(7.294)
Et rappelons aussi que:
(7.295)
Maintenant rappelons que nous avons démontré que si nous avions
deux variables aléatoires de loi:
(7.296)
alors la soustraction (différencier) des moyennes donne:
(7.297)
Donc pour la différence de deux moyennes de variables aléatoires
provenant de deux échantillons de population nous obtenons directement:
(7.298)
Et maintenant l'idée est de prendre l'approximation (sous l'hypothèse
que les variances sont égales):
(7.299)
Cette approximation est appelée "hypothèse homoscédastique".
Nous avons alors l'intervalle de confiance:
(7.300)
Comme l'idée est de tester l'égalité des moyennes théoriques à partir
des estimateurs connus alors:
(7.301)
avec:
(7.302)
Dans la plupart des logiciels disponibles sur le marché, le résultat
est uniquement donné à partir du fait que le que
nous avons est compris dans le correspondant
à l'intervalle de confiance donné rappelons-le par:
(7.303)
dans le cas de l'hypothèse homoscédastique (égalité des
variances).
Remarque: Cette dernière relation est appelée " independent
two-sample T-test", ou " test-T homoscédastique" ou
encore " test d'égalité des espérances
de deux observations avec variances égales",
avec taille des échantillons
différentes et variances égales. Souvent dans la
littérature,
les deux moyennes théoriques sont égales lors de
la comparaison. Il s'en suit que nous avons alors:
(7.304)
Sinon, dans le cas plus général de l'hypothèse
d'hétéroscédasticité (non égalité des
variances), nous écrivons
explicitement:
(7.305)
Donc:
(7.306)
Remarque: La relation antéprécédente
est appelée " independent
two-sample T-test", ou " test-T
hétéroscédastique" ou encore
" test
d'égalité des
espérances: deux
observations avec variances différentes".
Si la taille des échantillons est
égale et que les variances le sont aussi et que nous
supposons les deux moyennes théoriques égales
lors de la comparaison, il s'ensuit que nous avons alors:
(7.307)
Bref, fermons cette parenthèse et revenons à nos moutons... Nous
en étions donc au tableau suivant:
(7.308)
où nous avons donc dans le cas d'échantillons
de même taille:
(7.309)
Ainsi que l'erreur totale qui est la somme de l'erreur
des moyennes (interclasses) et de l'erreur résiduelle
(intra-classes) et ce que les échantillons soient de même
taille ou non:
(7.310)
Effectivement:
(7.311)
Or, nous avons:
(7.312)
car:
(7.313)
Donc:
(7.314)
Sous les hypothèses mentionnées au début (égalité des
moyennes entre échantillons) nous avons:
(7.315)
ce qui découle immédiatement de la démonstration
que nous avions faite lors de notre étude de l'inférence
statistique où nous avions
obtenu:
(7.316)
Ce que nous souhaitons faire c'est voir s'il y a une différence
entre la variance des moyennes (interclasses) et la variance
résiduelle (intra-classes). Pour comparer deux variances lorsque
les moyennes vraies sont inconnues nous avons vu que le mieux était
d'utiliser le test de Fisher.
De même, nous avons:
(7.317)
Effectivement, d'abord nous avons:
(7.318)
Donc de par la linéarité de la loi du Khi-deux:
(7.319)
puisque:
(7.320)
et parce que:
(7.321)
Donc pour résumer nous avons:
et
(7.322)
et puisque ,
nous avons alors:
(7.323)
C'est maintenant qu'intervient la loi de Fisher dans l'hypothèse
où les variances sont égales! Puisque:
et
(7.324)
Or, nous avons démontré dans notre étude de la loi de Fisher
un peu plus haut que:
(7.325)
ou dans notre cas d'étude:
(7.326)
Indiquons encore que la relation précédente:
(7.327)
est souvent indiquée dans la littérature sous la
forme suivante:
(7.328)
où MSK est appelé "Mean Square
for treatments" et MSE "Mean
Square for Error". Ce rapport va donc nous donner la
valeur de la variable aléatoire F (dont le support
est pour rappel borné à zéro à gauche). Comme il s'agit d'une loi
qui n'est pas symétirque il est peu judicieux de faire un test
bilatéral. On fera ains plutôt un test unilatéral à droite (la
région de rejet étant à droite).
L'interprétation de cette fraction est donc en gros la
suivante: Il s'agit du rapport (normalisé au nombre de degrés
de liberté) de la somme de l'erreur des moyennes (interclasses)
et
de l'erreur résiduelle
(intra-classes) ou autrement dit le rapport de la variance interclasse
par la variance résiduelle. Ce rapport suit donc une loi de Fisher à deux
paramètres donnés par les degrés de liberté des
classes respectives.
Remarque:
S'il y a seulement deux populations (échantillons), il faut
bien comprendre qu'à ce
moment l'utilisation du test-T de Student suffit amplement
et est considéré comme équivalent! Au fait,
l'ANOVA est une comparaison indirecte des moyennes, Student une
comparaison directe... il est donc évident de deviner lequel
est le mieux dans cette situation particulière!
Tous les calculs que nous avons faits sont très souvent
représentés
dans les logiciels sous la forme d'une table standardisée
dont voici la forme et le contenu (c'est ainsi que le présente
MS Excel ou Minitab par exemple):
Source |
Somme des carrés |
ddl du  |
Moyenne des carrés |
F |
Valeur critique Fc |
Inter-Classe |

|
k-1 |

|

|

|
Intra-Classe |

|
N-k |

|
|
|
Total |

|
N-1 |
|
|
|
Tableau: 7.1
- Terminologie et paramètres traditionnels d'un tableau ANOVA (TAV) à un
facteur
ainsi, pour que l'hypothèse soit acceptée, il faut
que la valeur de:
(7.329)
soit plus petite ou égale au
centile de la même loi F avec une probabilité
cumulée
correspondant à 1 soustrait de niveau de confiance .
La valeurs choisie du F critique est
un peu malheureuse à mon avis dans les tableaux d'ANOVA
(mais bon une fois que l'on sait que c'est ainsi...). Il est
peut-être plus aisé de comprendre cette valeur
si nous l'introduisons ainsi (le test unilatéral à droite ressort
pédagogiquement mieux à mon avis):
(7.330)
Il faut donc pour que le test ne soit pas rejeté
que:
(7.331)
Donc la valeur critique de F correspond simplement
et bêtement à la probabilité cumulée de la p-value.
Il faut cependant bien se rappeler que pour
utiliser l'ANOVA, on doit donc supposer que les échantillons
sont issus d'une même population (données appariées)
et suivent une loi normale. Il est donc nécessaire de
vérifier la normalité des distributions et l'homoscédasticité (test
de Levene). Dans le cas contraire, il faut utiliser des variantes
non paramétriques de l'analyse de variance (ANOVA de
Kruskal-Wallis ou ANOVA de Friedman). Ces tests ne sont pas encore
démontrés en détails à ce jour sur le site.
ANALYSE DE LA VARIANCE (ANOVA À DEUX
FACTEURS sans répétition)
Nous allons voir maintenant le concept d'interaction qui
est fondamental pour bien comprendre ce qu'il y a derrière
l'ANOVA à deux facteurs
sans et surtout avec répétition. Effectivement, ce n'est qu'avec l'ANOVA à deux
facteurs avec répétition – par
construction mathématique - que l'on peut statistiquement (sous certaines hypothèses) étudier
objectivement si deux ou plusieurs facteurs interagissent de manière significative
ensemble.
Il nous faut donc, avant de passer à la partie mathématique
pure, introduire quelques notions:
Définitions:
D1. Nous disons qu'il y a "absence
d'interaction" quand la moyenne des réponses
d'un facteur en fonction de ses niveaux varie de la même
amplitude et avec le même signe que la moyenne des réponses
d'un autre facteur en fonction de ses niveaux. Nous disons
alors que les courbes de réponses dans le diagramme des interactions
sont parallèles.
Remarque: Le parallélisme des réponses est normal en situation
d'absence d'interaction, car cela signifie que quel que soit
le niveau de l'un ou l'autre des facteurs, la variation (si
elle existe), de la réponse sera toujours la même de la même
amplitude. Ce qui est caractéristique de l'indépendance (du
moins localement).
D2. Nous disons que deux facteurs sont "en
interaction" quand la moyenne des réponses d'un
facteur en fonction de ses niveaux ne varie pas de la même
amplitude ou/et pas avec le même signe que la moyenne des
réponses d'un autre facteur en fonction de ses niveaux. Nous
disons alors que les courbes de réponses dans le diagramme
des interactions ne sont pas parallèles.
Remarque: L'absence d'interaction est une hypothèse très
forte et une observation rare. Souvent, nous avons des interactions
ou fortes interactions.
Pour comprendre le concept, nous utiliserons de petits exemples
sans répétition qui permettront d'avoir une idée qualitative
du phénomène mais en aucun cas une approche scientifique de
l'interaction.
Considérons le petit tableau suivant
|
|
Facteur 2
|
|
Facteur 1
|
Niveau 1
|
Niveau 2
|
|
Niveau 1
|
3
|
3
|
|
Niveau 2
|
3
|
3
|
Tableau: 7.2 - Premier exemple d'une petite ANOVA à deux facteurs sans répétition
Et nous aurons comme représentatives avec un logiciel comme
Minitab:

Figure: 7.12 - Graphique des effets principaux avec Minitab 15
Nous voyons bien qu'aucun facteur n'a un effet principal
sur quoi que ce soit. Ce qui est relativement intuitif étant
donné le contenu de tableau précédent.
Le diagramme des interactions donne lui:

Figure: 7.13 - Diagramme des interations avec Minitab 15
où nous pouvons constater que les facteurs n'interagissent
pas entre eux (ou se neutralisent c'est selon...). Nous disons
alors qu'il n'y a "(a priori)
aucun effet ni aucune interaction (localement)".
Au fait dans certaines expériences, l'absence d'interaction
est une hypothèse
très forte et donc souvent rare. Raison pour laquelle il faut faire attention
aux mots choisis lors de l'interprétation des graphiques d'interaction (car ne
pas passer par les calculs purs est délicat pour cette étape voir non scientifique!).
Maintenant voyons le tableau suivant:
|
|
Facteur 2
|
|
Facteur 1
|
Niveau 1
|
Niveau 2
|
|
Niveau 1
|
2
|
2
|
|
Niveau 2
|
4
|
4
|
Tableau: 7.3 - Deuxième exemple d'une petite ANOVA à deux facteurs sans
répétition
Il nous paraît clair que le Facteur 1 semble avoir une influence
sur la réponse. Mais voyons les différentes représentatives:

Figure: 7.14 - Graphique des effets principaux et diagramme des interactions avec Minitab
15
Il apparaît clairement dans le graphique du dessus qu'il
y a uniquement le niveau du Facteur 1 qui influence la
réponse, alors que le Facteur 2 n'influence en rien la
réponse. Nous disons alors qu'il y a effet principal (localement)
du Facteur1.
Sur le diagramme des interactions, nous avons la même information,
mais sous une forme différente. Nous voyons que quelque soit
le
niveau du Facteur 2, les réponses sont horizontales et donc celui-ci n'influence
en rien les résultats. Nous sommes donc dans une situation où "(a
priori) l'effet principal est (localement) le Facteur 1 et en absence interactions
entre
les facteurs".
Voyons maintenant le tableau suivant:
|
|
Facteur 2
|
|
Facteur 1
|
Niveau 1
|
Niveau 2
|
|
Niveau 1
|
4
|
2
|
|
Niveau 2
|
4
|
2
|
Tableau: 7.4 - Troisième exemple d'une petite ANOVA à deux facteurs sans
répétition
Nous pouvons observer que Facteur 2 a une influence mais
pas le Facteur 1. Mais voyons aussi cela sous forme de diagramme
des interactions:

Figure: 7.15 - Diagramme des interations avec Minitab 15
Nous observons bien sur le diagramme que le Facteur 1 n'a
aucune influence. Sur le graphique de droite c'est moins évident
(car il faudrait inverser les catégories et séries du graphique
pour avoir le même graphique qu'avant) mais la superposition
des deux droits montre que le Facteur 1 n'a pas d'influence.
Nous disons alors qu'il y a "(a
priori) effet principal (localement) du Facteur2 et en absence
d'interactions entre les
facteurs".
Considérons maintenant le tableau suivant:
|
|
Facteur 2
|
|
Facteur 1
|
Niveau 1
|
Niveau 2
|
|
Niveau 1
|
3
|
1
|
|
Niveau 2
|
5
|
3
|
Tableau: 7.5 - Quatrième exemple d'une petite ANOVA à deux facteurs sans
répétition
Nous voyons que les deux facteurs ont une influence sur la
réponse. Ce que montre bien les deux représentatives ci-dessous:

Figure: 7.16 - Graphique des effets principaux et diagramme des interactions avec Minitab
15
Nous observons bien sur le graphique du dessus que le Facteur
1 a une influence sur la réponse et qu'il est de même du Facteur
2 (et
en plus de la même amplitude quel que soit le sens!). Sur le graphique du dessous
c'est moins évident mais la même conclusion est valable. Nous disons
alors que "(a priori) les deux facteurs sont (localement)
significatifs et sans interactions".
Considérons maintenant le tableau suivant:
|
|
Facteur 2
|
|
Facteur 1
|
Niveau 1
|
Niveau 2
|
|
Niveau 1
|
2
|
4
|
|
Niveau 2
|
4
|
2
|
Tableau: 7.6 - Cinquième exemple d'une petite ANOVA à deux facteurs sans
répétition
qui sous cette forme n'est pas triviale à interpréter. Mais
avec les représentatives on a tout de suite des informations
plus pertinentes:

Figure: 7.17 - Graphique des effets principaux et diagramme des interactions avec Minitab
15
Nous observons bien sur le graphique de gauche qu'aucun des
facteurs n'a d'influence sur la réponse a priori (même graphique
qu'au tout début avec la même moyenne). Le graphique de droite
nous donne une information
complémentaire par contre!!!: Les facteurs ont une influence croisée et comme
cette influence croisée est de même amplitude, les effets s'annulent. Nous disons
alors que les "deux facteurs sont (localement) en
interaction F1*F2".
Considérons maintenant le tableau suivant:
|
|
Facteur 2
|
|
Facteur 1
|
Niveau 1
|
Niveau 2
|
|
Niveau 1
|
1
|
3
|
|
Niveau 2
|
5
|
3
|
Tableau: 7.7 - Sixième exemple d'une petite ANOVA à deux facteurs sans
répétition
Ce qui nous donne les deux représentatives suivantes:

Figure: 7.18 - Graphique des effets principaux et diagramme des interactions avec Minitab
15
Nous observons bien sur le graphique du dessus que le Facteur
1 semble avoir une influence et que le Facteur 2 non (en moyenne!).
Le diagramme des interactions du dessous nous donne, lui aussi,
encore une fois,
une information complémentaire!!!: C'est que les facteurs sont en interaction.
Nous disons alors que nous avons "(a priori) deux
facteurs (localement) en interaction F1*F2 où l'influence du Facteur 1 est significative".
Considérons maintenant le tableau suivant:
|
|
Facteur 2
|
|
Facteur 1
|
Niveau 1
|
Niveau 2
|
|
Niveau 1
|
3
|
3
|
|
Niveau 2
|
5
|
1
|
Tableau: 7.8 - Septième exemple d'une petite ANOVA à deux facteurs sans
répétition
Ce qui nous donne les deux représentatives suivants:

Figure: 7.19 - Graphique des effets principaux et diagramme des interactions avec Minitab
15
Nous disons alors que nous avons "(a
priori) les deux facteurs (localement) en interaction F1*F2
où l'influence du Facteur 2 est
significative".
Considérons maintenant le tableau suivant:
|
|
Facteur 2
|
|
Facteur 1
|
Niveau 1
|
Niveau 2
|
|
Niveau 1
|
1
|
1
|
|
Niveau 2
|
5
|
1
|
Tableau: 7.9 - Hutième exemple d'une petite ANOVA à deux facteurs sans
répétition
Ce qui nous donne les deux représentatives suivantes:

Figure: 7.20 - Graphique des effets principaux et diagramme des interactions avec Minitab
15
Nous disons alors que nous avons "(a
priori) les deux facteurs (localement) en interaction F1*F2
où l'influence des deux facteurs
est significative".
TEST
D'AJUSTEMENT DU KHI-DEUX
Nous allons étudier ici notre premier test d'ajustement
non-paramétrique,
un des plus connus certainement et des plus simples.
Supposons qu'une variable statistique
suive une loi de probabilité P.
Si nous tirons un échantillon dans la population correspondant à cette
loi, la distribution observée s'écartera toujours plus ou moins
de la distribution théorique, compte tenu des fluctuations d'échantillonnage. Généralement, nous ne connaissons ni la forme de la loi P,
ni la valeur de ses paramètres. C'est la nature du phénomène étudié et
l'analyse de la distribution observée qui permettent de choisir
une loi susceptible de convenir et d'en estimer les paramètres. Les écarts entre la loi théorique et la distribution observée
peuvent être attribués soit aux fluctuations d'échantillonnage,
soit au fait que le phénomène ne suit pas, en réalité, la loi
supposée. En gros, si les écarts sont suffisamment faibles, nous admettrons
qu'ils sont imputables aux fluctuations aléatoires et nous accepterons
la loi retenue ; au contraire, s'ils sont trop élevés, nous en
conclurons qu'ils ne peuvent pas être expliqués par les seules
fluctuations et que le phénomène ne suit pas la loi retenue. Pour évaluer ces écarts et pouvoir prendre une décision, il
faut : 1. Définir la mesure de la distance entre distribution empirique
et distribution théorique résultant de la loi retenue.
2. Déterminer la loi de probabilité suivie
par cette variable aléatoire donnant la distance.
3. Énoncer une règle de décision
permettant de dire, d'après
la distribution observée, si la loi retenue est acceptable
ou non.
Premièrement, nous aurons pour cela besoin du théorème
central limite et deuxièmement rappelons que lors de
la construction de la loi Normale, nous avons montré que
la variable:
(7.332)
suivait une loi Normale centrée réduite lorsque n tendait
vers l'infini (condition de Laplace) et que la probabilité p
était très petite.
En pratique, l'approximation est tout à fait acceptable... dans
certaines entreprises... lorsque et soit
(c'était un des termes qui devait tendre vers zéro quand nous
avions fait la démonstration):
(7.333)
Par exemple dans les deux figures ci-dessous où nous avons
représenté les lois binomiales approchées par les lois Normales
associées, nous avons à gauche et à droite :

Figure: 7.21 - Approche de fonctions binomiales par fonctions Normales associées
Rappelons enfin, que nous avons démontré que la
somme des carrés de n variables aléatoires
normales centrées réduites
linéairement indépendantes suit une loi du khi-deux à n degrés
de liberté noté .
Considérons maintenant une variable aléatoire X suivant
une fonction de distribution théorique (continue ou discrète) P et
tirons un échantillon de taille n dans la population correspondant à cette
loi P. Les n observations seront réparties suivant k modalités
(classes de valeurs) C1, C2, ..., Ck,
dont les probabilités p1, p2, ..., pk sont
déterminées par la fonction de distribution P (se référer à l'exemple
de la droite de Henry). Pour chaque modalité Ci, l'effectif empirique
est lui une variable aléatoire ki de loi binomiale:
(7.334) Cet effectif ki correspond en effet au nombre
de succès "résultat égal à la modalité Ci" de
probabilité pi, obtenus au cours des n tirages
d'un lot expérimental (et non dans la population de la loi théorique
comme avant). Nous avons démontré lors de l'étude de la loi binomiale que
son espérance:
(7.335) représente l'effectif théorique de la modalité Ci et
sa variance est:
(7.336)
car pi est relativement petite, ce qui
donne qui
est assez proche de 1. Son écart-type est donc:
(7.337) Dans ces conditions, pourvu que la modalité Ci ait un effectif
théorique npi au moins égal à 5, l'écart réduit:
(7.338)
entre effectif empirique et effectif théorique peut être
approximativement considéré comme une variable normale centrée
réduite comme nous
l'avons vu plus haut.
Nous définissons alors la variable:
(7.339) où est
souvent nommée "fréquence expérimentale" et "fréquence
théorique". Signalons que cette variable est aussi parfois (un peu malheureusement)
notée:
(7.340)
ou le plus souvent:
(7.341)
Cette variable D, somme des carrés des variables Ei,
nous donne une mesure de ce que nous pourrions appeler une "distance" ou "différence" ou "écart" entre
distribution empirique et distribution théorique. Notons
bien cependant qu'il ne s'agit pas d'une distance au sens
mathématique habituel (topologique).
Rappelons que D peut donc aussi s'écrire:
(7.342)
D est donc la somme des carrés de N variables
aléatoires normales centrées réduites liées par la seule
relation linéaire:
(7.343)
où n est la taille de l'échantillon. Donc D suit
une loi khi-deux mais à N-1 degrés de liberté, donc un
degré de moins à cause
de l'unique relation linéaire qui les lie! Effectivement, rappelons
que le degré de liberté indique le nombre de variables indépendantes
dans la somme et non pas juste le nombre de termes sommés.
Donc:
(7.344)
Nous appelons ce test un "test
non-paramétrique du khi-2" ou "test
du khi-2 de Pearson" ou encore "test
d'ajustement
du khi-2" ou encore "test
de Karl Pearson".
Ensuite, l'habitude est de déterminer la valeur de
la loi du khi-deux à N-1 degrés de liberté ayant
5% de probabilité d'être
dépassée. Ainsi, dans l'hypothèse où le
phénomène étudié suit
la loi théorique P, il y a donc 95% de probabilité cumulée
que la variable D prenne une valeur inférieure à celle
donnée par la loi du khi-deux.
Si la valeur de la loi du khi-deux obtenue à partir de l'échantillon
prélevé est inférieure à celle correspondant
aux 95% de probabilité cumulée,
nous acceptons l'hypothèse selon laquelle le phénomène
suit la loi P.
Remarques:
R1. Le fait que l'hypothèse de la loi P soit
acceptée
ne signifie pas pour autant que cette hypothèse soit vraie,
mais simplement que les informations données par l'échantillon
ne permettent pas de la rejeter. De même, le fait que l'hypothèse
de la loi P soit rejetée ne signifie pas nécessairement
que cette hypothèse soit fausse mais que les informations
données
par l'échantillon conduisent plutôt à conclure à l'inadéquation
d'une telle loi.
R2. Pour que la variable D suive une loi du khi-deux,
il est nécessaire que les effectifs théoriques npi des
différentes modalités Ci soient
au moins égaux à 5,
que l'échantillon soit tiré au hasard (pas d'autocorrélation)
et qu'aucune des probabilités pi ne
soit trop proche de zéro.
Ce test d'ajustement souffre cependant d'un gros défaut:
il nécessite
de regrouper les mesures dans des classes Ci et
dans la pratique il n'existe pas de théorème absolu
(du moins à
ma connaissance) pour choisir le nombre de classes (et in extenso
leur largeur). C'est cette raison qui fait que le test d'ajustement
(conformité) du khi-deux est resérvé pour des distributions discrètes
où le problème du choix des classes en se pose pas.
Il nous faudra
cependant créer
des tests d'ajustement qui ne nécessient pas l'utilisation
de classes et nous verrons plus loin les outils ad hoc pour cela
(test de Kolmogorov-Smirnov ou Anderson-Darling pour ne citer qu'eux).
Robustesse
Dans le domaine des statistiques inférentielles et
tests d'hypothèses, la robustesse est un concept récurrent
(les banques sont astreintes au stress testing de leurs
modèles
de risque). Nous en avons par ailleurs déjà fait mention plus
haut...
Définitions:
D1. Un test est dit "test robuste"
s'il reste valable alors que les hypothèses d'application
ne sont pas toutes réunies.
Ce peut être une taille d'échantillon un peu faible
ou une loi de probabilité (loi normale pour les tests
paramétriques) qui n'est pas très bien vérifiée.
Par exemple, l'ANOVA est robuste par rapport à l'hypothèse
de normalité mais pas par rapport à celle de l'homoscédasticité
D2. Un indicateur est dit "indicateur
robuste" s'il
est peu sensible à la
présence d'outliers (le coefficient de corrélation,
par exemple, n'est pas très robuste).
D3. Plus généralement, un modèle est
dit "modèle robuste" lorsqu'il
permet un prolongement des résultats
(dans le temps ou pour une population). La robustesse s'applique
aussi bien à une régression multiple qu'à une
grille de score.
Par conséquent, à moins d’être uniquement
descriptives, vos études devront respecter quelques
règles pour que leurs conclusions soient généralisables.
Première condition d'une bonne robustesse: les
données. Intuitivement, chacun sait qu'on ne transforme
pas un cas en généralité (ce qui ne relèverait
pas des statistiques mais des discussions de comptoir). Une
quantité suffisante de données permet de bâtir
des modèles fiables et solides. À titre d'exemple,
des prévisions établies à partir d'une
série chronologique montrant une saisonnalité nécessitent
au moins trois ou quatre ans d'historique.
La quantité ne suffit pas, il faut la qualité.
Mieux vaut s'abstenir que réaliser une étude
sur des informations non fiables qui peuvent conduire à des
décisions coûteuses. Par ailleurs, il convient
d'éliminer ou d'imputer certaines observations
(voir outliers). Si ce n'est pas possible, on se tourne
vers des méthodes adaptées, par exemple celles
qui utilisent la médiane plutôt que la moyenne.
|