|

THÉORIE
DE LA DÉMONSTRATION |
NOMBRES | OPÉRATEURS
ARITHMÉTIQUES
|
THÉORIE DES NOMBRES
| THÉORIE DES ENSEMBLES |
PROBABILITÉS | STATISTIQUES
Dernière mise-à-jour de ce chapitre:
28.07.2010 18:54
Version: 2.1 Revision 7 | Avancement: ~90%
LISTE DES SUJETS TRAITÉS SUR CETTE PAGE
eSTIMATEURS DE VRAISEMBLANCE
Ce qui va suivre est d'une
extrême importance en statistiques et est utilisé énormément
en pratique. Il convient donc d'y accorder une attention toute
particulière!
Nous supposons que nous
disposons d'observations qui
sont des réalisations de variables aléatoires non biaisées (dans
le sens qu'elles sont choisies aléatoirement parmi un lot) indépendantes de
loi de probabilité inconnue mais identique.
Nous allons chercher à estimer
cette loi de probabilité P inconnue à partir des observations .
Supposons que nous procédons
par tâtonnement pour estimer la loi de probabilité P inconnue.
Une manière
de procéder est de se demander si les observations avaient
une probabilité élevée ou non de sortir avec cette loi de probabilité arbitraire P.
Nous devons pour cela calculer
la probabilité conjointe qu'avaient les observations de
sortir avec .
Cette probabilité vaut (cf. chapitre de Probabilités):
(7.1)
en
notant P la loi de probabilité supposée associée à .
Il faut avouer qu'il serait alors particulièrement maladroit
de choisir une loi de probabilité (avec ses paramètres!)
qui minimise cette quantité...
Au contraire, nous allons
chercher la probabilité qui
maximise ,
c'est-à-dire qui rende les observations le
plus vraisemblable possible.
Nous sommes donc amené à chercher le (ou les) paramètre(s)
qui maximise(nt) la quantité :
(7.2)
Cette quantité L porte le
nom de "vraisemblance".
C'est une fonction du ou des paramètres et
des observations .
La ou les valeurs du paramètre qui
maximisent la vraisemblance sont
appelées "estimateurs du maximum
de vraisemblance" (estimateur MV).
Faisons quand même trois
petits exemples (très classiques, utiles et importants dans l'industrie)
avec dans l'ordre d'importance (donc pas forcément dans
l'ordre de facilité...) la fonction de distribution de
Gauss-Laplace (Normale), la fonction de distribution
de Poisson
et finalement Binomiale.
Remarque: Ces trois exemples sont importants car utilisés
dans les SPC (maîtrise statistiques de processus) dans différentes
multinationales à travers le monde (cf.
chapitre de Génie Industriel).
ESTIMATEURS DE LA LOI NORMALE
Soit un
n-échantillon
de variables aléatoires identiquement distribuées supposées
suivre une loi de Gauss-Laplace (loi Normale) de paramètres et .
Nous recherchons quelles
sont les valeurs des estimateurs de maximum de vraisemblance qui
maximisent la vraisemblance de
la loi Normale ?
Remarque: Il va de soit que les estimateurs de maximum de vraisemblance
 sont
ici :
(7.3)
Nous avons démontré plus haut que la densité d'une
variable aléatoire
gaussienne était donnée
par :
(7.4)
La vraisemblance est alors
donnée
par:
(7.5)
Maximiser une fonction ou
maximiser son logarithme est équivalent donc la "log-vraisemblance"
sera:
(7.6)
Pour déterminer
les deux estimateurs de la loi Normale, fixons d'abord l'écart-type.
Pour cela, dérivons
par rapport à
et regardons pour quelle valeur de la moyenne la fonction s'annule.
Il nous reste après simplification le terme suivant qui
est égal à zéro:
(7.7)
Ainsi, l'estimateur de maximum
de vraisemblance de la moyenne (espérance) de la loi Normale
est donc après réarrangement:
(7.8)
et nous voyons qu'il s'agit simplement de la moyenne arithmétique
(ou appelée aussi "moyenne empirique").
Fixons maintenant la moyenne.
L'annulation de la dérivée de
en conduit à :
(7.9)
Ce qui nous
permet d'écrire l'estimateur de maximum de vraisemblance pour
l'écart-type
(la variance lorsque la moyenne est connue selon la loi de distribution
supposée elle aussi connue!):
(7.10)
Cependant, nous n'avons pas
encore défini ce qu'était un bon estimateur ! Ce que nous entendons
par là:
- Si l'espérance
d'un estimateur est égale à elle-même, nous
disons que cet estimateur est "sans
biais" et c'est bien évidemment ce que nous
cherchons!
- Si l'espérance
d'un estimateur n'est
pas égale à elle-même, nous disons
alors que cet estimateur est "biaisé" et
c'est forcément moins bien...
Dans l'exemple précédent,
la moyenne est donc non biaisée (trivial car la moyenne de la moyenne
arithmétique est égale à elle même). Mais qu'en est-il de la variance
(in extenso de l'écart-type)
?
Un petit calcul simple par linéarité de l'espérance
(puisque les variables aléatoires sont identiquement distribuées)
va nous donner la réponse
dans le cas où la
moyenne théorique est approchée
comme dans la pratique (industrie) par l'estimateur de la moyenne
(cas le plus fréquent).
Nous avons donc le calcul de l'espérance
de la "variance empirique":
(7.11)
Or, comme les variables sont équidistribuées:
(7.12)
Et nous avons (formule de Huyghens):
(7.13)
ainsi que :
(7.14)
où la deuxième relation ne peut s'écrire que parce que nous utilisons
l'estimateur de maximum de vraisemblance de la moyenne (moyenne
empirique). D'où:
(7.15)
et comme:
et
(7.16)
Nous avons finalement:
(7.17)
nous avons donc un biais de -1 fois l'erreur-standard:
(7.18)
Nous noterons également
que l'estimateur tend vers un estimateur sans
biais (E.S.B.) lorsque le nombre d'échantillons tend
vers l'infini .
Nous disons alors que nous avons un "estimateur
asymptotiquement non biaisé".
Remarque: Un estimateur est aussi dit " estimateur
consistant" s'il converge en probabilité, lorsque  ,
vers la vraie valeur du paramètre.
De par les propriétés de
l'espérance, nous avons alors:
(7.19)
il vient alors:
(7.20)
Nous avons donc finalement
deux résultats importants:
1. L'estimateur de maximum de vraisemblance
biaisé
ou appelé également "variance
empirique" ou encore "variance échantillonnale"
et donc donné par:
(7.21)
lorsque .
2. Et donc "l'estimateur de maximum
vraisemblance non biaisé":
(7.22)
deux relations que nous
retrouvons souvent dans les tables et dans de nombreux logiciels
et que nous utiliserons plus bas dans les développements
des intervalles de confiance et des tests d'hypothèses!
Par
exemple, dans MS Excel l'estimateur biaisé est donné par la
fonction ECARTYPEP( ) et le non biaisé par ECARTTYPE( ).
Au total, cela nous fait donc trois estimateurs pour la même
quantité!! Comme dans l'écrasante majorité des
cas de l'industrie la moyenne théorique n'est pas connue,
nous utilisons le plus souvent les deux dernières relations
encadrées
ci-dessus. Maintenant, c'est la que c'est le plus vicieux : lorsque
nous calculons le biais des
deux estimateurs, le premier est biaisé, le second ne
l'est pas. Donc nous aurions tendance à utiliser que le
second. Que nenni! Car nous pourrions aussi parler de la variance
et de
la précision d'un estimateur, qui sont aussi des critères
importants pour juger
de la qualité d'un estimateur par rapport à un autre. Si
nous faisions le calcul de la variance des deux estimateurs, alors
le premier,
qui est
biaisé, a une variance plus petite que le second qui est
sans biais! Tout ça pour dire que
le critère du biais n'est pas (et de loin) le seul à étudier
pour juger de la qualité d'un estimateur.
Enfin, il est important de se rappeler que le facteur -1 du dénominateur
de l'estimateur de maximum de vraisemblance non biaisé provient
du fait qu'il fallait corriger l'espérance de l'estimateur
biaisé
à la base minoré de une fois l'erreur-standard!
In extenso, ils est possible de démontrer (mais c'est long)
que si la variable aléatoire suivant une loi normale dont nous
cherchons
l'expression de l'estimateur non biaisé est la somme de k variables
aléatoires linéairement indépendantes alors nous avons:
(7.23)
ESTIMATEUR DE LA LOI DE POISSON
En utilisant la même méthode que pour la loi Normale (Gauss-Laplace),
nous allons donc rechercher l'estimateur de maximum de vraisemblance
la loi de Poisson qui rappelons-le, est définie par :
(7.24)
Dès lors, la vraisemblance est donnée par :
(7.25)
Maximiser une fonction ou maximiser son logarithme est équivalent
donc:
(7.26)
Nous cherchons maintenant à la maximiser :
(7.27)
et obtenons donc son unique estimateur de maximum de vraisemblance
qui sera :
(7.28)
Il est tout à fait normal de retrouver dans cet exemple
didactique la moyenne empirique, car c'est le meilleur estimateur
possible pour le paramètre de la loi de Poisson (qui représente
aussi l'espérance d'une loi de Poisson).
Sachant que l'écart type de la distribution particulière
(voir plus haut) n'est que la racine carrée de la moyenne,
nous avons alors pour l'écart-type de maximum de vraisemblance
biaisé:
(7.29)
Remarque:
Nous montrons de la même manière des résultats
identiques pour la loi exponentielle très utilisée
en maintenance préventive et
fiabilité!
ESTIMATEUR DE LA LOI BINOMIALE
En utilisant la même méthode que pour la loi Normale (Gauss-Laplace)
et la loi de Poisson, nous allons donc rechercher l'estimateur
de maximum de vraisemblance la loi Binomiale qui rappelons-le,
est définie par :
(7.30)
Dès lors, la vraisemblance est donnée par :
(7.31)
Il convient de se rappeler que le facteur qui suit
le terme combinatoire exprime déjà les variables
successives selon ce que nous avons vu lors de notre étude
de la fonction de distribution de Bernoulli et de la fonction bin0miale.
Maximiser une fonction ou maximiser son logarithme est équivalent
donc:
(7.32)
Nous cherchons maintenant à la maximiser :
(7.33)
Ce qui donne :
(7.34)
d'où nous tirons l'estimateur de maximum de vraisemblance biaisé
qui sera :
(7.35)
Ce résultat est assez intuitif si l'on considère l'exemple classique
d'une pièce de monnaie qui à une chance sur deux de
tomber sur une des ces faces. La probabilité p étant le
nombre de fois k où une face donnée a été observée sur
le nombre d'essais total (toutes faces confondues).
Remarque: Dans la pratique, il n'est pas aussi simple
d'appliquer ces estimateurs! Il faut bien réfléchir
lesquels sont les plus adaptés à une expérience
donnée
et idéalement calculer également l'erreur quadratique
moyenne (erreur standard) de chacun des estimateurs de la moyenne
(comme nous l'avons déjà fait pour la moyenne empirique
plus tôt). Bref c'est un long travail de réflexion.
ESTIMATEUR DE LA LOI WEIBULL
Nous avons vu dans le chapitre de Génie Industriel une étude
très détaillée de la loi de Weibull à trois paramètres avec son écart-type
et son espérance car nous avions précisée qu'elle était assez utilisée
dans le domaine de l'ingénierie de la fiabilité.
Malheureusement les trois paramètres de cette loi nous
sont en pratique inconnus. A l'aide des estimateurs nous pouvons
cependant déterminer l'expression de deux des trois en supposant comme étant
nul. Cela nous donne donc la loi de Weibull dite "à deux paramètres" suivante:
(7.36)
avec pour rappel et .
Dès lors la vraisemblance est donnée par:
(7.37)
Maximiser une fonction ou maximiser son logarithme est équivalent
donc:
(7.38)
Cherchons maintenant à maximiser cela en se rappelant que (cf.
chapitre de Calcul Différentiel et Intégral):
et
(7.39)
d'où:
(7.40)
Et nous avons pour le deuxième paramètre:
(7.41)
d'où:
(7.42)
Finalement avec les écritures correctes (et dans l'ordre de résolution
dans la pratique):
et
(7.43)
La résolution de ces équations implique de lourds calculs et
on peut rien en tirer dans les tableaux classiques comme MS Excel
ou Calc de Open Office.
On prend alors une approche différente en écrivant notre loi
de Weibull à deux paramètres ainsi:
(7.44)
avec pour rappel et .
Dès lors la vraisemblance est donnée par:
(7.45)
Maximiser une fonction ou maximiser son logarithme est équivalent
donc:
(7.46)
Cherchons maintenant à maximiser cela en se rappelant que (cf.
chapitre de Calcul Différentiel et Intégral):
et
(7.47)
d'où:
(7.48)
Et nous avons pour le deuxième paramètre:
(7.49)
Il est alors immédiat que:
(7.50)
injecté dans la relation:
(7.51)
Il vient:
(7.52)
en simplifiant:
(7.53)
La résolution des deux équations (dans l'ordre de haut en bas):
(7.54)
peut très facilement être calculé avec l'outil Valeur Cible de
MS Excel ou Calc de Open Office.
INTERVALLES DE CONFIANCE
Jusqu'à maintenant nous avons toujours déterminé les différents
estimateurs de vraisemblance ou estimateurs simples (variance, écart-type) à partir
de lois (fonctions) statistiques théoriques ou mesurées sur toute
une population de données.
Nous allons maintenant aborder une approche un peu différente
et importante dans l'industrie en se demandant maintenant quelles
doivent être les tailles d'échantillons pour avoir une certaine
validité (intervalle de confiance I.C.) pour les données mesurées
ou encore quel écart-type
ou fractile dans une loi Normale centrée réduite (grand nombre
d'échantillons), du Khi-deux, de Student ou de Fisher correspond à un
certain intervalle de confiance (nous verrons
ces deux derniers cas de faibles échantillons dans
la partie
traitant
de
l'analyse
de la variance ou ANOVA) lorsque la variance ou la moyenne est
connue ou respectivement inconnue sur l'ensemble ou une partie
de la population
de donnée.
Indiquons que ces intervalles de confiance utilisent le théorème
central limite démontré plus loin (afin d'éviter toute frustration)
et que les développements que nous allons faire maintenant nous
seront également utiles dans le domaine des Tests d'Hypothèse qui
ont une place majeure en statistique!
I.C. SUR LA MOYENNE AVEC VARIANCE théorique CONNUE
Commençons par le cas le plus simple et le plus courant qui est
la détermination du nombre d'échantillons pour avoir une certaine
confiance dans la moyenne des mesures effectuées d'une variable
aléatoire supposée suivre une loi Normale.
D'abord rappelons que nous avons démontré au début de ce chapitre
que l'erreur-type (écart-type à la moyenne) était :
(7.55)
Maintenant, avant d'aller plus loin, considérons X comme
une variable aléatoire suivant une loi Normale de moyenne et
d'écart-type .
Nous souhaiterions déterminer à combien de sigma correspond un
intervalle de confiance de 95%. Pour déterminer cela, nous écrivons
d'abord:
(7.56)
Remarque: Donc
avec un intervalle de confiance de 95% vous aurez raison 19 fois
sur 20, ou n'importe quel autre niveau de confiance
ou
niveau de risque (1-niveau de confiance, soit 5%) que vous vous serez
fixé à l'avance.
En moyenne, vos conclusions seront donc bonnes, mais nous ne pourrons
jamais savoir si une décision particulière est bonne!
Si le niveau de risque est très faible mais que l'événement
a quand même lieu, les spécialiste parlent alors de "grande
déviation".
En centrant et réduisant la variable aléatoire :
(7.57)
Notons maintenant Y la variable centrée réduite :
(7.58)
Puisque la loi Normale centrée réduite est symétrique :
(7.59)
D'où :
(7.60)
A partir de là en lisant dans les tables numériques de la loi
Normale centrée réduite, nous avons pour satisfaire cette égalité que
:
(7.61)
Ce qui s'obtient facilement avec MS Excel en utilisant la fonction:
-NORMSINV((1-0.95)/2).
Donc :
(7.62)
Ce qui est noté de façon traditionnelle dans le cas général autre
que 95% par (Z n'est pas une variable aléatoire c'est juste
le facteur qui est la variable suivante) :
(7.63)
Or, considérons que la variable X sur la quelle nous souhaitons
faire de l'inférence statistique est justement la moyenne (et nous
démontrerons plus loin que celle-ci suit une loi Normale centrée
réduite). Dès
lors :
(7.64)
nous en tirons :
(7.65)
Ainsi, nous pouvons maintenant savoir le nombre d'échantillons à avoir
pour s'assurer un intervalle de précision (marge
d'erreur) autour de la moyenne et pour qu'un pourcentage donné des
mesures se trouvent dans cet intervalle et en supposant l'écart-type
expérimental connu
(ou imposé) d'avance (typiquement utilisé dans l'ingénierie
de la qualité ou les instituts de sondages).
Autrement dit, nous pouvons calculer le nombre n d'échantillons
à mesurer pour s'assurer un intervalle de confiance donné
(associé à Z) de la moyenne mesurée
en supposant l'écart-type expérimental connu (ou
imposé) et en souhaitant un
précision de en
valeur absolue sur la moyenne.
Cependant... en réalité, la variable Z provient du théorème
central limite (voir plus bas) qui donne pour un échantillon de
grande taille (approximativement):
(7.66)
En réarrangeant nous obtenons:
(7.67)
et comme Z peut être négatif ou positif alors il est plus
censé d'écrire cela sous la forme:
(7.68)
Soit:
(7.69)
que les ingénieurs notent parfois:
(7.70)
avec LCL étant la lower confidence limit et UCL la upper confidence
limit. C'est de la terminologie Six Sigma (cf.
chapitre de Génie Industriel).
Et nous venons de voir plus avant que pour avoir un intervalle
de confiance à 95% nous devions avoir Z=1.96. Et puisque la loi
Normale est symétrique:
(7.71)
Cela se note finalement:
(7.72)
soit dans le cas d'un I.C. (intervalle de confiance) à 95%:
(7.73)
Nous sommes ainsi capables maintenant d'estimer
des tailles de population nécessaires à obtenir un certain niveau
de confiance dans un résultat, soit d'estimer dans quel intervalle
de confiance se trouve la moyenne théorique par rapport à la moyenne
expérimentale (empirique).
I.C. SUR LA VARIANCE AVEC moyenne théorique CONNUE
Commençons à démontrer une propriété fondamentale
de la loi du khi-deux :
Si une variable aléatoire X suit une loi Normale centrée
réduite alors
son carré suit une loi du khi-deux de degré de liberté 1 :
(7.74)
Démonstration:
Pour démontrer cette propriété, il suffit de calculer la densité de
la variable aléatoire avec .
Or, si et
si nous posons ,
alors pour tout nous
obtenons:
(7.75)
Puisque la loi Normale centrée réduite est symétrique
par rapport à 0
pour la variable aléatoire X, nous pouvons écrire :
(7.76)
En notant la
fonction de répartition de la loi Normale centrée réduite (sa probabilité cumulée
en d'autres termes pour rappel...), nous avons :
(7.77)
et comme :
(7.78)
alors :
(7.79)
La fonction de répartition de la variable aléatoire (probabilité cumulée) est
donne donnée par :
(7.80)
si y est supérieur ou égal à zéro, nulle si y inférieur à zéro.
Nous noterons cette réparation pour
la suite des calculs.
Puisque la fonction de distribution est la dérivée de la fonction
de répartition et que X suit une loi Normale centrée réduite
alors nous avons pour la variable aléatoire X :
(7.81)
alors nous avons pour la loi de distribution de Y (qui
est donc le carré de X pour rappel!) :
(7.82)
cette dernière expression correspond exactement à la relation
que nous avions obtenu lors de notre étude de la loi du khi-deux
en imposant un degré de liberté unité.
Le théorème est donc bien démontré tel que si X suit une
loi Normale centrée réduite alors son carré suit une loi du khi-deux à 1
degré de liberté tel que :
(7.83)
C.Q.F.D.
Ce type de relation est utilisé dans les processus industriels
et leur contrôle (cf. chapitre de Génie
Industriel).
Nous allons maintenant utiliser un résultat démontré lors
de notre étude de la loi Gamma. Nous avons effectivement
vu plus haut que la somme de deux variables aléatoires suivant
une loi Gamma suit aussi une loi Gamma dont les paramètres
s'additionnent :
(7.84)
Comme la loi du khi-deux n'est qu'un cas particulier de la loi
Gamma, le même résultat s'applique.
Pour être plus précis, cela revient à écrire
:
Si sont
des variables aléatoires indépendantes (!) et identiquement distribuées
N(0,1) alors
par extension de la démonstration précédente
où nous avons montré que:
(7.85)
et de la propriété d'addition de la loi Gamma,
la somme de leurs carrés suit alors une loi du khi-deux de degré k tel
que:
(7.86)
Ainsi, la loi du à k degrés
de liberté est la loi de probabilité de la somme des carrés de k variables
normales centrées réduites linéairement indépendantes entre
elles. Il s'agit de la propriété de linéarité de
la loi du Khi-deux (implicitement de la linéarité de la loi Gamma)!
Maintenant voyons une autre propriété importante de la loi du
khi-deux : Si sont
des variables aléatoires indépendantes et identiquement distribuées (donc
de même moyenne et même écart-type et suivant une loi Normale)
et si nous notons l'estimateur de maximum de vraisemblance de la
variance:
(7.87)
alors, le rapport de la variable aléatoire sur
l'écart-type supposé connu de l'ensemble de la population
(dit "écart-type vrai" ou "écart-type théorique" pour bien différencier!)
multiplié par
le nombre d'échantillons n de
la population suit une loi du khi-deux de degré n telle
que :
(7.88)
Remarques:
R1. En laboratoire, les peuvent être
vues comme une classe d'échantillons d'un même produit étudié identiquement
par différentes équipes de recherche avec des instruments de même
précision (écart-type de mesure nul).
R2. est
la "variance interclasse" également
appelée "variance expliquée".
Donc elle donne la variance d'une mesure ayant eu lieu dans les
différents laboratoires.
Ce qui est intéressant c'est qu'à partir du calcul de la loi
du khi-deux en connaissant n et l'écart-type il
est possible d'estimer cette variance (écart-type) interclasse.
Pour voir que cette dernière propriété est une généralisation élémentaire
de la relation :
(7.89)
il suffit de constater que la variable aléatoire est
une somme de n carrés de N(0,1) indépendants les
uns des autres. Effectivement, rappelons qu'une variable aléatoire
centrée réduite (voir notre étude de la loi Normale) est donnée
par :
(7.90)
Dès lors :
(7.91)
Or, puisque les variables aléatoires sont
indépendantes et identiquement distribuées selon une loi
Normale, alors les variables aléatoires :
(7.92)
sont aussi indépendantes et identiquement distribuées mais selon
une loi Normale centrée réduite.
Puisque:
(7.93)
en réarrangeant nous obtenons:
(7.94)
Donc sur la population de mesures, l'écart-type vrai suit
la relation donnée ci-dessus. Il est donc possible de faire
de l'inférence
statistique sur l'écart-type lorsque la moyenne théorique
est connue (...).
Puisque la fonction du khi-deux n'est pas symétrique,
la seule possibilité pour faire l'inférence c'est
de faire appel au calcul numérique et nous noterons alors
l'intervalle de confiance à 95%
(par exemple...) de la manière suivante:
(7.95)
Soit en notant :
(7.96)
le dénominateur étant alors bien évidemment la probabilité cumulée.
Cette relation est rarement utilisée dans la pratique car la moyenne
théorique n'est pas connue. Voyons donc le cas le plus courant:
I.C. SUR LA VARIANCE AVEC moyenne empirique connue
Cherchons maintenant à faire de l'inférence statistique lorsque
la moyenne théorique de la population n'est
pas connue. Pour cela, considérons maintenant la somme:
(7.97)
où pour rappel est
la moyenne empirique (arithmétique) de l'échantillon:
(7.98)
En continuant le développement nous avons:

(7.99)
Or, nous avons démontré au début de ce chapitre que la somme
des écarts à la moyenne était nulle. Donc:
(7.100)
et reprenons l'estimateur sans biais de la loi Normale (nous
changeons de notation pour respecter les traditions et bien différencier
la moyenne empirique de la moyenne théorique):
(7.101)
Dès lors:
(7.102)
ou autrement écrit:
(7.103)
Puisque le deuxième terme (au carré) suit une loi Normale centrée
réduite aussi, alors si nous le supprimons nous obtenons de par
la propriété démontrée plus haut de la loi du Khi-deux:
(7.104)
Ces développements nous permettent cette fois-ci de faire aussi
de l'inférence sur la variance d'une
loi lorsque
les paramètres et sont
tous les deux inconnus pour l'ensemble de la population. C'est
ce résultat qui nous donne, par exemple, l'intervalle de confiance:
(7.105)
lorsque la moyenne théorique est
donc inconnue.
I.C. SUR LA MOYENNE AVEC moyenne empirique connue
Nous avons démontré beaucoup plus haut que la loi de Student
provenait de la relation suivante:
(7.106)
si Z et U sont des variables aléatoires indépendantes
et si Z suit une loi Normale centrée réduite N(0,1)
et U une loi du khi-deux tel
que:
(7.107)
Voici une application très importante du résultat ci-dessus:
Supposons que constituent
un échantillon aléatoire de taille n issu de la loi .
Alors nous pouvons déjà écrire que selon les développements faits
plus haut:
(7.108)
Et pour U qui suit une loi ,
si nous posons alors
selon les résultats obtenus plus haut:
(7.109)
Nous avons alors après quelques simplifications triviales:
(7.110)
Donc puisque:
(7.111)
suit une loi de Student de paramètre k alors nous
obtenons le "independant one-sample t-test":
(7.112)
suit aussi une loi de Student de paramètre n-1.
Ce qui nous donne aussi :
(7.113)
Ce qui nous permet de faire de l'inférence sur la moyenne d'une
loi Normale d'écart-type inconnu mais dont l'estimateur sans biais
de l'écart-type est connu (donc l'écart-type théorique
est inconnu!). C'est ce résultat
qui nous donne l'intervalle de confiance:
(7.114)
où nous retrouvons les mêmes indices que pour l'inférence statistique
sur la moyenne d'une variable aléatoire d'écart-type connu puisque
la loi de Student est symétrique!
Remarque: Le
résultant précédent fut obtenu par William S. Gosset aux alentours
de 1910. Gosset qui avait étudié les mathématiques et la chimie,
travaillait comme statisticien pour la brasserie Guinness en Angleterre. À l'époque,
on savait que si  sont
des variables aléatoires indépendantes et identiquement distribuées
alors:
(7.115)
Toutefois, dans les applications statistiques on s'intéressait
bien évidemment plutôt à la quantité:
(7.116)
on se contentait alors de supposer que cette quantité suivait à peu
près une loi Normale centrée réduite ce qui n'était pas une mauvais
approximation comme le montre l'image ci-dessous ( ):

(7.117)
Suite à de nombreuses simulations, Gosset arriva à la conclusion
que cette approximation était valide seulement lorsque n est
suffisamment grand (donc cela lui donnait l'indication comme quoi
il devait y avoir quelque part derrière le théorème central limite).
Il décida de déterminer l'origine de la distribution et après avoir
suivi un cours de statistique avec Karl Pearson il obtint son fameux
résultat qu'il publia sous le pseudonyme de Student. Ainsi, on
appelle loi de Student la loi de probabilité qui aurait dû être
appelée la loi ou fonction de Gosset.
Signalons enfin que le test de student est très utilisée pour
identifier si des variations (progressions
ou l'inverse) de la moyenne de chiffres de deux
populations identiques sont significatives.
LOI FAIBLE DES GRANDS NOMBRES
Nous allons
maintenant nous attarder sur une relation très intéressante en
statistique qui permet de dire pas mal de choses tout en ayant
peu de données et ce quelque soit la
loi considérée (ce qui est pas mal quand même!). C'est une propriété
très utilisée en simulation statistique par exemple dans le cadre
de l'utilisation de Monte-Carlo.
Soit une variable aléatoire à valeurs
dans .
Alors nous allons démontrer la relation suivante appelée "inégalité de
Markov" :
(7.118)
avec dans
le contexte particulier des probabilités.
En d'autres termes, nous proposons
de démontrer
que la probabilité qu'une variable aléatoire soit plus grande ou égale
qu'une valeur est
inférieure ou égale à son espérance divisée par la valeur considérée et
ce quelle que soit la loi de distribution de la variable aléatoire
X!
Démonstration:
Notons les valeurs de X par ,
où (c'est-à-dire
triées par ordre croissant) et posons .
Nous remarquons d'abord que l'inégalité est triviale au cas ou .
Effectivement, comme X ne peut être compris qu'entre 0 et
par
définition alors la probabilité qu'il soit supérieure à est
nul. En d'autres termes :
(7.119)
et X étant
positif, E(X) l'est
aussi, d'où l'inégalité pour ce cas particulier dans un premier
temps.
Sinon, nous avons et
il existe alors un tel
que .
Donc :
(7.120)
C.Q.F.D.
Exemple :
Nous supposons que le nombre
de pièces sortant
d'une usine donnée en l'espace d'une semaine est une variable aléatoire
d'espérance 50. Si nous souhaitons estimer la probabilité cumulée
que la production dépasse 75 pièces nous appliquerons simplement :
(7.121)
Considérons maintenant une sorte de généralisation
de cette inégalité appelée "inégalité de Bienaymé-Tchebychev" (abrégée "inégalité BT")
qui va nous permettre d'obtenir un résultat très intéressant un
peu plus bas.
Considérons une variable aléatoire X.
Alors nous allons démontrer l'inégalité de Bienaymé-Tchebychev suivante:
(7.122)
qui exprime le fait que plus l'écart-type est petit, plus la
probabilité que la variable aléatoire X s'éloigne
de sont espérance est faible.
Nous obtenons cette inégalité en écrivant d'abord :
(7.123)
et le choix du carré va nous
servir pour une simplification future.
Puis en appliquant l'inégalité de Markov (comme
quoi c'est quand même utile...) à la variable aléatoire avec il
vient automatiquement :
(7.124)
Ensuite, en utilisant la définition de la variance:
(7.125)
Nous obtenons bien:
(7.126)
Si nous posons:
(7.127)
l'inégalité s'écrit:
(7.128)
et exprime que la probabilité que pour que X s'éloigne
de son espérance de plus que t fois son écart-type, est
inférieure à .
Il y a, en particulier, moins de 1 chance sur 9 pour que X s'éloigne
de son espérance de plus de trois fois l'écart-type.
Exemple :
Nous reprenons l'exemple où le nombre de pièces
sortant d'une usine donnée en l'espace d'une semaine est une variable
aléatoire d'espérance 50. Nous supposons en plus que la variance
de la production hebdomadaire est de 25. Nous cherchons à calculer
la probabilité que la production de la semaine prochaine soit comprise
entre 40 et 60 pièces.
Pour calculer ceci il faut d'abord
se souvenir que l'inégalité de BT est basée en parties sur le
terme donc
nous avons :
(7.129)
donc l'inégalité de BT nous permet bien de travailler
sur des intervalles égaux en valeur absolue ce qui s'écrit aussi :
(7.130)
Ensuite, ne reste plus qu'à appliquer simplement
l'inégalité numériquement :
(7.131)
Ces deux
dernières inégalités vont nous permettre d'obtenir
une relation très importante et puissante que nous appelons la "loi
faible des grands nombres" (L.F.G.N.) ou encore "théorème
de Khintchine".
Considérons une variable aléatoire X admettant
une variance et une
suite de variables aléatoires indépendantes (donc non corrélées
deux-deux) de même loi que X et ayant toutes les mêmes espérances et
les mêmes écarts-types .
Ce que nous allons montrer est
que si nous mesurons une même quantité aléatoire de
même loi au cours d'une suite d'expériences indépendantes (alors
dans ce cas, nous disons techniquement que la suite de
variables aléatoires sont définies sur le même espace probabilisé),
alors la moyenne arithmétique des valeurs observées va se stabiliser
sur l'espérance de X quand le nombre de mesures est infiniment élevée.
De manière formelle ceci s'exprime sous la forme :
(7.132)
lorsque . Donc en d'autres termes la probabilité cumulée
que la différence entre la moyenne arithmétique et l'espérance
des variables aléatoires observées soit compris dans un intervalle
autour de la moyenne tend vers zéro quand le nombre de variables
aléatoires mesurées tend vers l'infini (ce qui est finalement intuitif).
Ce résultat nous permet d'estimer l'espérance mathématique en
utilisant la moyenne empirique (arithmétique) calculée sur un très
grand nombre d'expériences.
Démonstration:
Nous utilisons l'inégalité de Bienaymé-Tchebychev
pour la variable aléatoire (cette relation s'interprète difficilement
mais permet d'avoir le résultat escompté) :
(7.133)
Et nous calculons d'abord en
utilisant les propriétés
mathématiques de l'espérance que nous avions démontrées plus
haut:
(7.134)
et dans un deuxième temps en utilisant les propriétés
mathématiques de la variance aussi déjà démontrées plus haut :
(7.135)
et puisque nous avons supposé les variables
non corrélées entre elles alors la covariance est nulle dès lors :
(7.136)
Donc en injectant cela dans l'inégalité BT :
(7.137)
nous avons alors :
(7.138)
qui devient :
(7.139)
et l'inégalité tend bien vers zéro quand n au numérateur
tend vers l'infini.
C.Q.F.D.
Signalons que cette dernière relation est souvent notée dans
certains ouvrages et conformément à ce que nous avons
vu au début
de ce chapitre:
(7.140)
ou encore:
(7.141)
Donc, pour :
(7.142)
FONCTION CARACTÉRISTIQUE
Avant de donner une démonstration à la manière ingénieur du théorème
central limite, introduisons d'abord la conception de "fonction
caractéristique" qui tient une place centrale en statistiques.
D'abord, rappelons que la transformée de Fourier est donnée dans
sa version physicienne par (cf. chapitre
de Suites et Séries) la
relation:
(7.143)
Rappelons que la transformation de Fourier est un analogue
de la théorie des séries de Fourier pour les fonctions
non périodiques, et permet de leur associer un spectre en
fréquences.
Nous souhaitons maintenant démontrer que si:
alors
(7.144)
En d'autres termes, nous cherchons une expression simplifiée
de la transformée de Fourier de la dérivée de f(x).
Démonstration:
Nous partons donc de:
(7.145)
Une intégration par parties donne :
(7.146)
En imposant que, f tend vers zéro à l'infini, nous
avons alors:
(7.147)
et:
(7.148)
C'est la premier résultat dont nous avions besoin.
C.Q.F.D.
Maintenant, démontrons que si:
alors
(7.149)
Démonstration:
Nous partons donc de:
(7.150)
C'est le deuxième résultat dont nous avions besoin.
C.Q.F.D.
Maintenant effectuons le calcul de la transformée de Fourier
de la loi Normale centrée-réduite (ce choix n'est
pas innocent...) :
(7.151)
Nous savons que cette dernière relation est trivialement solution
de l'équation différentielle (ou bien elle vérifie) :
(7.152)
en prenant la transformée de Fourier des deux côté de l'égalité,
nous avons en utilisant les deux résultats précédents:
alors
(7.153)
alors 
Nous avons:
(7.154)
Ou encore:
(7.155)
Donc après intégration:
(7.156)
Nous avons:
(7.157)
Nous avons démontré lors de notre étude de la loi Normale
que:
(7.158)
Donc:
(7.159)
Nous avons alors (résultat important!):
(7.160)
Introduisons maintenant la fonction caractéristique telle que
définie par les statisticiens:
(7.161)
qui est un outil analytique important et puissant permettant
d'analyser une somme de variables aléatoires indépendantes.
De plus, cette fonction contient toutes les informations caractéristiques
de la variable aléatoire X.
Remarque:
La notation n'est pas innocente puisque le E[...]
représente une espérance de la fonction de densité par
rapport à l'exponentielle
complexe.
Donc la fonction caractéristique de la variable aléatoire normale
centrée réduite de distribution:
(7.162)
devient simple à déterminer car:
(7.163)
raison pour laquelle la fonction caractéristique de la loi Normale
centrée réduite est souvent assimilée à une simple
transformée
de Fourier.
Et grâce au résultat précédent:
(7.164)
Donc:
(7.165)
qui est le résultat dont nous avons besoin pour le théorème central
limite.
Mais avant cela, regardons d'un peu plus près cette fonction
caractéristique:
(7.166)
En développement de MacLaurin nous avons (cf.
chapitre Suites et Séries) et en changeant un peu les notations:
(7.167)
et en intervertissant la somme et l'intégrale, nous avons:
(7.168)
Cette fonction caractéristique contient donc tous les moments
(terme général utilisé pour l'écart-type et l'espérance) de X.
THÉORÈME CENTRAL LIMITE
Le théorème central limite est un ensemble de résultats
du début du 20ème siècle sur la convergence faible d'une suite
de variables aléatoires en probabilité. Intuitivement, d'après
ces résultats, toute somme (implicitement: la moyenne de
ses variables) de variables aléatoires indépendantes et identiquement
distribuées tend vers une certaine variable aléatoire. Le résultat
le plus connu et le plus important est simplement appelé "théorème central limite" qui concerne une somme de variables
aléatoires dont le nombre tend vers l'infini et c'est celui-ci
que nous allons démontrer de manière heuristique ici.
Dans le cas le plus simple, considéré ci-dessous pour la démonstration
du théorème, ces variables sont continues, indépendantes et possèdent
la même moyenne et la même variance. Pour tenter d'obtenir un résultat
fini, il faut centrer cette somme en lui soustrayant sa moyenne
et la réduire en la divisant par son écart-type. Sous des conditions
assez larges, la loi de probabilité (de la moyenne) converge alors
vers une loi Normale centrée réduite. L'omniprésence de la loi
Normale s'expliquant par le fait que de nombreux phénomènes considérés
comme aléatoires sont dus à la superposition de causes nombreuses.
Ce théorème de probabilités possède donc une interprétation en
statistique mathématique. Cette dernière associe une loi de probabilité à une
population. Chaque élément extrait de la population est donc considéré comme
une variable aléatoire et, en réunissant un nombre n de
ces variables supposées indépendantes, nous obtenons un échantillon.
La somme de ces variables aléatoires divisée par n donne
une nouvelle variable nommée la moyenne empirique. Celle-ci, une
fois réduite, tend vers
une variable Normale réduite lorsque n tend vers l'infini
comme nous le savons.
Le théorème central limite nous dit à quoi il faut s'attendre
en matière de sommes de variables aléatoires indépendantes. Mais
qu'en est-il des produits ? Eh bien, le logarithme d'un
produit (à facteurs strictement positifs) est la somme des logarithmes
des facteurs, de sorte que le logarithme d'un produit de variables
aléatoires (à valeurs strictement positives) tend vers une loi
Normale, ce qui entraîne une loi log-Normale pour le produit lui-même.
En elle-même, la convergence vers la loi Normale de nombreuses
sommes de variables aléatoires lorsque leur nombre tend vers l'infini
n'intéresse que le mathématicien. Pour le praticien, il est intéressant
de s'arrêter un peu avant la limite : la somme d'un grand
nombre de ces variables est presque gaussienne, ce qui fournit
une approximation souvent plus facilement utilisable que la loi
exacte.
En s'éloignant encore plus de la théorie, on peut dire que bon
nombre de phénomènes naturels sont dus à la superposition de causes
nombreuses, plus ou moins indépendantes. Il en résulte que la loi
Normale les représente de manière raisonnablement efficace.
A l'inverse, on peut dire qu'aucun phénomène concret n'est vraiment
gaussien car il ne peut dépasser certaines limites, en particulier
s'il est à valeurs positives.
Démonstration:
Soit une
suite (échantillon) de variables aléatoires continues
(dans notre démonstration simplifiée...), indépendantes
(mesures de phénomènes
physiques ou mécaniques indépendants par exemple)
et identiquement distribuées, dont la moyenne et
l'écart-type existent.
Nous avons vu au début de ce chapitre que:
(7.169)
sont les mêmes expressions d'une variable centrée réduite générée
à l'aide d'une suite de n variables aléatoires
identiquement distribuées qui par construction a donc une moyenne
nulle et une variance unitaire:
et
(7.170)
Développons la première forme de l'égalité antéprécédente (elles
sont de toute façon égales les deux!):
(7.171)
Maintenant utilisons la fonction caractéristique de la loi Normale
centrée-réduite:
(7.172)
Comme les variables aléatoires sont
indépendantes et identiquement distribuées, il vient:
(7.173)
Un développement de Taylor du terme entre accolades donne
au troisième ordre:
(7.174)
Finalement:

(7.175)
Posons:
(7.176)
Nous avons alors:
(7.177)
Nous avons donc quand x tend vers l'infini (cf.
chapitre d'Analyse fonctionnelle):
(7.178)
Nous retrouvons donc la fonction caractéristique de la loi Normale
centrée réduite!
En deux mots, le Théorème Central Limite (TCL) dit que pour de
grands échantillons, la somme centrée
et réduite de n variables
aléatoires identiquement distribuées suit
une loi Normale centrée et réduite. Et
donc nous avons in extenso pour la moyenne empirique:
(7.179)
Malgré l'immensité de son champ d'applications, le TCL n'est
pas universel. Dans sa forme la plus simple, il impose en
particulier à la variable considérée d'avoir des moments du premier
et du deuxième ordre (moyenne et variance). Si tel n'est pas le
cas, il ne s'applique plus.
L'exemple le plus simple d'échec du TLC est donné par la distribution
de Cauchy, qui n'a ni moyenne, ni variance, et dont la moyenne
empirique a toujours la même distribution (Cauchy) quelle que soit
la taille de l'échantillon.
Maintenant, nous allons illustrer le théorème central limite
dans le cas d'une suite de
variables aléatoires indépendantes discrètes suivant une loi de
Bernoulli de paramètre 1/2.
Nous pouvons imaginer que représente
le résultat obtenu au n-ème lancé d'une pièce de monnaie
(en attribuant le nombre 1 pour pile et 0 pour face). Notons:
(7.180)
la moyenne. Nous avons pour tout n bien évidemment:
(7.181)
et donc:
(7.182)
Après avoir centré et réduit nous
obtenons:
(7.183)
Notons la
fonction de répartition de la loi Normale centrée réduite.
Le théorème central limite nous dit que pour tout :
(7.184)
A l'aide de Maple nous avons tracé en bleu quelques graphiques
de la fonction:
(7.185)
pour différentes valeurs de n. Nous avons représenté en
rouge la fonction .
:

(7.186)
:

(7.187)


(7.188)


(7.189)
Ces graphiques obtenus avec Maple à l'aide des commandes suivantes:
> with(stats):
>
with(plots):
>
e1:=plot(Heaviside(t+1)*statevalf[dcdf,binomiald[1,0.5]](trunc((t+1)/2)),t=-2..2,y=0..1,color=blue):
>
e2:=plot(Heaviside(t+sqrt(2))*statevalf[dcdf,binomiald[2,0.5]](trunc((t*sqrt(2)+2)/2)),t=-sqrt(2)-1..sqrt(2)+1,y=0..1,color=blue):
>
e3:=plot(Heaviside(t+sqrt(5))*statevalf[dcdf,binomiald[5,0.5]](trunc((t*sqrt(5)+5)/2)),t=-sqrt(5)-1..sqrt(5)+1,y=0..1,color=blue):
>
e4:=plot(statevalf[cdf,normald](t),t=-5..5):
>
e5:=plot(Heaviside(t+sqrt(30))*statevalf[dcdf,binomiald[30,0.5]](trunc((t*sqrt(30)+30)/2)),t=-sqrt(30)-1..sqrt(30)+1,y=0..1,color=blue):
>
display({e1,e4});
>
display({e2,e4});
>
display({e4,e3});
>
display({e5,e4});
montrent
bien la convergence de vers .
En fait nous remarquons que la convergence est carrément uniforme
ce qui est confirmé par le "théorème central limite de Moivre-Laplace":
Soit une
suite de variables aléatoires indépendantes de même loi de Bernoulli
de paramètre p, .
Alors:
(7.190)
tend uniformément vers sur lorsque . TESTS D'HYPOTHÈSE (OU D'ADÉQUATION)
Lors de notre étude des intervalles de confiance, rappelons
nous sommes arrivées aux relations suivantes:
(7.191)
et:
(7.192)
et:
(7.193)
et enfin:
(7.194)
qui permettaient donc de faire de l'inférence
statistique en fonction de la connaissance ou non de la moyenne
ou de la variance vraie
sur la totalité ou sur un échantillon de la population.
En d'autres termes de savoir dans quelles bornes se situait un
moment (moyenne
ou variance) en fonction d'un certain niveau de confiance imposé.
Nous avions vu que le deuxième intervalle ci-dessus ne peut être
que difficilement utilisé dans la pratique (suppose la moyenne
théorique
connue)
et nous lui préférons donc le troisième.
Nous allons également démontré en détails plus loin
les deux intervalles suivants:
(7.195)
et:
(7.196)
Le premier intervalle
ci-dessus ne peut être lui aussi que difficilement utilisé dans
la pratique (suppose la moyenne théorique connue) et
nous lui préférons donc le deuxième.
Lorsque nous cherchons à savoir si nous pouvons
faire confiance à la valeur d'un moment ou d'une variable
aléatoire en général avec une certaine confiance, nous parlons
de "test
d'hypothèse" ou "test
d'adéquation" ou encore de "test
de conformité".
Les tests d'hypothèses sont destinés à vérifier
si un échantillon peut être considéré comme
extrait d'une population donnée ou représentatif
de cette population, vis-à-vis d'un paramètre comme
la moyenne, la variance ou la fréquence observée.
Ceci implique que la loi théorique du paramètre est
connue au niveau de la population.
Par exemple, si nous souhaitons savoir avec une
certaine confiance si une moyenne donnée d'un échantillon
de population est réaliste par rapport à la vraie moyenne théorique
inconnue, nous utiliserons le "test-Z" qui
est simplement:
(7.197)
si la moyenne de toute la population se trouve bien
dans les bornes pour la confiance donnée, la moyenne de
l'échantillon
test de taille n avec l'écart-type de toute la
population connue!
Maintenant rappelons que nous avons démontré que si nous avions
deux variables aléatoires de loi:
(7.198)
alors la soustraction (différencier) des moyennes donne:
(7.199)
Donc pour la différence de deux moyennes de variables aléatoires
provenant de deux échantillons de population nous obtenons directement:
(7.200)
Nous pouvons alors adapter le test-Z sous la forme:
(7.201)
Cette relation est très utile lorsque pour deux échantillons
de deux populations de données, nous voulons vérifier s'il existe
une différence significative des différences des moyennes théoriques à un
niveau de confiance donné et la probabilité associée pour avoir
cette différence par exemple donné par:
(7.202)
Donc:
(7.203)
Nous parlons du "test-Z de
la moyenne à deux échantillons" et il est beaucoup utilisé
dans l'industrie pour vérifier l'égalité de la moyenne de deux populations
de mesures.
Et si l'écart-type théorique n'est
pas connu, nous utiliserons le"test-T"
de Student (pas mal utilisé en pharmaco-économie)
démontré plus haut:
(7.204)
Dans la même idée pour l'écart-type,
nous utiliserons le "test du khi-deux" aussi
déjà démontré plus haut:
(7.205)
Et lorsque nous voulons tester l'égalité de
la variance de deux populations nous utilisons le "test-F"
de Fisher (démontré plus bas lors de notre étude
de l'analyse de la variance):
(7.206)
Le fait que nous obtenions alors l'ensemble des
valeurs satisfaisant à ce test borné à droite
et (!) à gauche est
ce que nous appelons dans le cas général un "test
bilatéral" car il comprend le test unilatéral à gauche
et unilatéral à droite. Ainsi, tous les tests susmentionnés
sont dans une forme bilatérale mais nous pourrions en faire
une analyse unilatérale aussi!
Signalons aussi que les tests d'hypothèses
sur l'écart-type
(variance), la moyenne ou la corrélation sont appelés
des "tests
paramétriques" à l'inverse des tests
non-paramétriques que nous verrons plus loin.
Remarque: Il
existe également une autre définition du concept de test paramétrique
et non-paramétrique (complétement différente). Mais sur ce site
web nous préférerons utiliser celle mentionnée ci-dessus.
Enfin, de nombreux logiciels calculent ce que nous
appelons la "p-value" qui
est généralement (car c'est le statisticien qui va
faire le choix du niveau de qualité de son estimation) le risque
limite pour lequel nous passons de l'état
d'hypothèse
acceptée à l'état
refusée.
Pour un test, le 5% de risque
est celui de rejeter l'hypothèse alors même
qu'elle est vraie. Si le risque est 5% et que la p-value
est inférieure,
le test échoue (rejet de l'hypothèse). Nous acceptons
l'hypothèse
si la p-value est plus grande que 5% (0.05). Au fait,
plus la p-value est grande, mieux c'est car l'intervalle
de confiance est de plus en plus petit. Si l'intervalle de confiance
vient à être énorme (très proche de 100%) car la p-value
est très petite alors l'analyse n'a plus vraiment de sens physiquement
parlant!
Remarque: Nous ne devrions
jamais dire que nous "acceptons" une hypothèse
ou encore qu'elle est"vraie" ou "fausse"
car ces termes sont trop forts. Nous devrions dire si nous "rejetons"
ou non l'hypothèse et qu'elle est éventuellement "correcte" ou
"non correcte".
Nous allons dans ce qui suit
démontrer l'origine du test F de
Fisher et par la même occasion nous introduirons deux autres
tests qui sont le "test-T homoscédastique" et
le "test-T hétéroscédastique".
ANALYSE
DE LA VARIANCE (ANOVA a un facteur)
L'objectif de l'analyse de la variance (contrairement à ce
que son nom pourrait laisser penser) est une technique
statistique
permettant
de comparer les moyennes de deux populations ou plus (très utilisé
dans le pharma ou dans les labos de R&D ou de bancs d'essais).
Cette méthode,
néanmoins, doit son nom au fait qu'elle utilise des mesures
de variance afin de déterminer le caractère significatif,
ou non, des différences de moyenne mesurées sur les
populations.
Plus précisément, la vraie signification est
de savoir si le fait que des moyennes d'échantillons sont
(légèrement)
différentes peut être attribué au hasard
de l'échantillonnage ou provient du fait que facteur de
variabilité engendre réellement des échantillons
qui sont significativement différents (si nous avons les
valeurs de toute la population, nous n'avons rien à faire!).
Pour l'analyse de la variance abrégée "ANOVA
à une facteur" (ANalysis
Of VAriance) ou "ANAVAR à un facteur" (ANAlyse
de la VARiance), dite aussi "ANOVA à une
voie", nous allons d'abord
rappeler, comme nous l'avons démontré,
que la loi de Fisher-Snedecor est donnée
par le rapport de deux variables aléatoires indépendantes
suivant une loi du khi-deux et divisée
par leur degré de liberté tel que:
(7.207)
et nous allons voir maintenant son importance.
Considérons un échantillons aléatoire de taille n, disons issu
de la loi et
un échantillon aléatoire de taille m, disons issu
de la loi .
Considérons les estimateurs de maximum de vraisemblance de l'écart-type
de la loi Normale traditionnellement notée dans le domaine de l'analyse
de la variance par:
et
(7.208)
Les statistiques ci-dessus sont les statistiques que nous utiliserions
pour estimer les variances si les moyennes théoriques sont
connues. Donc nous pouvons utiliser un résultat démontré plus haut
lors de notre étude des intervalles de confiance:
(7.209)
Comme les sont
indépendantes des (hypothèse!),
les variables:
(7.210)
sont indépendantes l'une de l'autre.
Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:
et
(7.211)
ainsi que:
et
(7.212)
Nous avons donc:
(7.213)
Soit:
(7.214)
Ce théorème nous permet de déduire l'intervalle de confiance
du rapport de deux variances lorsque la moyenne théorique est
connue. Puisque la fonction du Fisher n'est pas symétrique, la
seule possibilité pour
faire l'inférence c'est de faire appel au calcul numérique et nous
noterons alors pour un intervalle de confiance donné le test
de la manière
suivante:
(7.215)
Dans le cas où les moyennes sont
inconnues, nous utilisons l'estimateur sans biais de la variance
traditionnellement notée dans le domaine de l'analyse de la variance
par:
et
(7.216)
Pour estimer les variances théoriques, nous utilisons le résultat
démontré plus haut:
et
(7.217)
Comme les sont
indépendantes des (hypothèse!),
les variables:
(7.218)
sont indépendantes l'une de l'autre. Nous pouvons donc appliquer
la loi de Fisher-Snedecor avec:
et
(7.219)
ainsi que:
et
(7.220)
Nous avons donc:
(7.221)
Soit:
(7.222)
Ce théorème nous permet de déduire l'intervalle de confiance
du rapport de deux variances lorsque la moyenne empirique est connue.
Puisque la fonction du Fisher n'est pas symétrique, la seule possibilité pour
faire l'inférence c'est de faire appel au calcul numérique et nous
noterons alors pour un intervalle de confiance donné
le test de la manière suivante:
(7.223)
R. A. Fisher (1890-1962) est, comme Karl Pearson, l'un des principaux
fondateurs de la théorie moderne de la statistique. Fisher étudia à Cambridge
où il obtint en 1912 un diplôme en astronomie. C'est en étudiant
la théorie de l'erreur dans les observations astronomiques que
Fisher s'intéressa à la statistique. Fisher est l'inventeur de
la branche de la statistique appelée l'analyse de la variance.
Au début du 20ème siècle, R. Fischer développe donc la méthodologie
des plans d'expérience. Pour valider l'utilité d'un facteur, il
met au point un test permettant d'assurer que des échantillons
différents sont de natures différentes. Ce test est basé sur l'analyse
de la variance (des échantillons), et nommé ANOVA (analyse normalisée
de la variance).
Prenons k échantillons
de n valeurs aléatoires chacun (appelé "facteur
explicatif" dans
l'analyse de la variance). Chacune des valeurs étant considérée
comme une observation ou une mesure de quelque chose ou sur la
base de quelque chose (un lieu différent, ou un objet différent...
bref: un seul et unique facteur de variabilité entre les échatillons!).
Nous aurons donc un nombre total de N d'observations
(mesures) donnée
par:
(7.224)
si chacun des échantillons a un nombre identique de valeurs
tel que (nous
parlons alors de "plan équilibré" à k niveaux.
Remarque: Si nous avons plusieurs facteurs de variabilité (par
exemple: chaque lieu comparé à lui-même plusieurs labos), nous
parlerons alors d'ANOVA multifactorielle. Dès lors, s'il n'y a
que deux facteurs de variabilité, nous parlons d'ANOVA à deux facteurs.
Nous considérerons que chacun des k échantillons est
issu (suit) d'une variable aléatoire suivant une loi Normale.
En termes de test, nous voulons tester si les moyennes des k échantillons
sont égales sous l'hypothèse que leurs variances sont égales. Ce
que nous écrivons sous forme d'hypothèse de la manière suivante:
(7.225)
Autrement dit: les échantillons sont représentatifs d'une même
population (d'une même loi statistique). C'est-à-dire que
les variations constatées entre les valeurs des différents échantillons
sont dues essentiellement au hasard. Pour cela nous étudions la
variabilité des résultats dans les échantillons et entre les échantillons.
Nous noterons i l'indice d'échantillon (de 1 à k)
et j l'indice de l'observation (de 1 à n). Donc sera
la valeur de la j-ème observation de l'échantillon de données
numéro i.
Selon l'hypothèse susmentionnée, nous avons:
(7.226)
Nous noterons par la
moyenne empirique/estimée (arithmétique) de l'échantillon i :
(7.227)
et la
moyenne empirique/estimée des N valeurs (soit la moyenne
des )
donnée donc par:
(7.228)
En utilisant les propriétés de l'espérance et de la variance
déjà démontrées plus haut nous savons que:
et
(7.229)
avec qui
est la moyenne des moyennes vraies :
(7.230)
Maintenant, introduisons la "variance
totale" comme étant
la variance estimée sans biais en considérant l'ensemble des N observations
comme un seul échantillon:
(7.231)
où rappelons que le terme au numérateur est appelé "variation
totale".
La variance entre échantillons (c'est-à-dire entre les moyennes
des échantillons) est l'estimateur de la variance des moyennes
des échantillons:
(7.232)
Comme nous avons démontré que si toutes les variables sont identiquement
distribuées (même variance) la variance des individus vaut n fois
celle de la moyenne:
(7.233)
alors la variance des observations (variables aléatoires dans
un échantillon) est donnée par :
(7.234)
Nous avons donc ci-dessus l'hypothèse de l'égalité des variances
qui est exprimée sous forme mathématique pour les développements à suivre.
La variance résiduelle est l'effet des facteurs dits non contrôlés.
C'est par définition la moyenne des variances des échantillons.
(7.235)
Au final, ces indicateurs sont parfois résumés sous la forme
suivante:
(7.236)
Remarquons que si les échantillons n'ont pas la même taille (ce
qui est rare), nous avons alors:
(7.237)
Remarques:
R1. Le terme est
souvent indiqué dans l'industrie par l'abréviation SST signifiant
en anglais "Sum of Squares Total" ou plus rarement TSS pour
"Total Sum of Square".
R2. Le terme est
souvent indiqué dans l'industrie par l'abréviation SSB signifiant
en anglais "Sum of Squares Between (samples)" ou plus rarement SSk pour
"Sum of Squared Beetween treatments".
R3. Le terme est
souvent indiqué dans l'industrie par l'abréviation SSW signifiant
en anglais "Sum of Squares Within (samples)"
ou plus rarement SSE pour
"Sum of Squared due to Errors".
Indiquons que nous voyons souvent dans la littérature (nous réutiliserons
un peu plus loin cette notation):
(7.238)
avec donc l'estimateur sans biais de la variance des observations:
(7.239)
Avant d'aller plus loin, arrêtons-nous sur la variance résiduelle.
Nous avons donc pour des échantillons qui ne sont pas
de même taille:
(7.240)
Ouvrons maintenant une petite parenthèse... Prenons le cas particulier
deux échantillons seulement. Nous pouvons alors écrire:
(7.241)
Soit en introduisant l'estimateur de maximum de vraisemblance
de la variance:
(7.242)
Nous pouvons d'ailleurs observer que dans le cas particulier
où:
(7.243)
alors:
(7.244)
Donc:
(7.245)
Supposons maintenant que nous souhaitions comparer avec un certain
intervalle de confiance la moyenne de deux populations ayant une
variance différente pour savoir si elles sont de natures différentes
ou non.
Nous connaissons pour le moment deux tests pour vérifier les
moyennes. Le test-Z et le test-T. Comme dans l'industrie
il est rare que nous ayons le temps de prendre des grands échantillons,
concentrons-nous sur le deuxième que nous avions démontré plus
haut:
(7.246)
Et rappelons aussi que:
(7.247)
Maintenant rappelons que nous avons démontré que si nous avions
deux variables aléatoires de loi:
(7.248)
alors la soustraction (différencier) des moyennes donne:
(7.249)
Donc pour la différence de deux moyennes de variables aléatoires
provenant de deux échantillons de population nous obtenons directement:
(7.250)
Et maintenant l'idée est de prendre l'approximation (sous l'hypothèse
que les variances sont égales):
(7.251)
Cette approximation est appelée "hypothèse homoscédastique".
Nous avons alors l'intervalle de confiance:
(7.252)
Comme l'idée est de tester l'égalité des moyennes théoriques à partir
des estimateurs connus alors:
(7.253)
avec:
(7.254)
Dans la plupart des logiciels disponibles sur le marché, le résultat
est uniquement donné à partir du fait que le que
nous avons est compris dans le correspondant
à l'intervalle de confiance donné rappelons-le par:
(7.255)
dans le cas de l'hypothèse homoscédastique (égalité des
variances).
Remarque: Cette dernière relation est appelée " independent
two-sample t-test", ou " t-test
homoscédastique", avec taille des échantillons
différentes et variances égales. Souvent dans la
littérature,
les deux moyennes théoriques sont égales lors de
la comparaison. Il s'en suit que nous avons alors:
(7.256)
Sinon, dans le cas plus général de l'hypothèse
hétéroscédasticité (non égalité des
variances), nous écrivons
explicitement :
(7.257)
Donc:
(7.258)
Remarque: La relation antéprécédente
est appelée " independent
two-sample t-test", ou " t-test
hétéroscédastique". Si la
taille des échantillons est
égale et que les variances le sont aussi et que nous
supposons les deux moyennes théoriques
sont égales lors de la comparaison, il s'en suit que
nous avons alors:
(7.259)
Bref, fermons cette parenthèse et revenons à nos moutons... Nous
en étions donc au tableau suivant:
(7.260)
où nous avons donc le cas d'échantillons
de même taille:
(7.261)
Ainsi que la variance totale qui est la somme de la variance
des moyennes (interclasses) et de la variance résiduelle (intra-classes)
et ce que les échantillons soient de même taille ou
non:
(7.262)
Effectivement:
(7.263)
Or, nous avons:
(7.264)
car:
(7.265)
Donc:
(7.266)
Sous les hypothèses mentionnées au début (égalité des
moyennes entre échantillons) nous avons:
(7.267)
ce qui découle immédiatement de la démonstration que nous avions
fait lors de notre étude de l'inférence statistique où nous avions
obtenu:
(7.268)
Ce que nous souhaitons faire c'est voir s'il y a une différence
entre la variance des moyennes (interclasses) et de la variance
résiduelle (intra-classes). Pour comparer deux variances lorsque
les moyennes vraies sont inconnues nous avons vu que le mieux était
d'utiliser le test de Fisher.
De même, nous avons:
(7.269)
Effectivement, d'abord nous avons:
(7.270)
Donc de par la linéarité de la loi du Khi-deux:
(7.271)
puisque:
(7.272)
et parce que:
(7.273)
Donc pour résumer nous avons:
et
(7.274)
et puisque ,
nous avons alors:
(7.275)
C'est maintenant qu'intervient la loi de Fisher dans l'hypothèse
où les variances sont égales! Puisque:
et
(7.276)
Or, nous avons démontré dans notre étude de la loi de Fisher
un peu plus haut que:
(7.277)
où dans notre cas d'étude:
(7.278)
Indiquons encore que la relation précédente:
(7.279)
et souvent indiquée dans la littérature sous la formation suivante:
(7.280)
où MSK est appelé "Mean Square for
treatments" et MSE "Mean
Square for Error".
Remarque:
S'il y a seulement deux populations, il faut bien comprendre qu'à ce
moment l'utilisation du test-T de Student suffit amplement.
Tous les calculs que nous avons fait sont très souvent
représentés
dans les logiciels sous la forme d'une table standardisée
donc voici la forme et le contenu (c'est ainsi que le présente
MS Excel ou Minitab par exemple):
Source |
Somme des carrés |
ddl du  |
Moyenne des carrés |
F |
Valeur critique F |
Inter-Classe |

|
k-1 |

|

|

|
Intra-Classe |

|
N-k |

|
|
|
Total |

|
N-1 |
|
|
|
Tableau: 7.1
- Terminologie et paramètres traditionnels d'une ANOVA à un facteur
ainsi, pour que l'hypothèse soit acceptée, il faut
que la valeur de:
(7.281) soit plus petite ou égale à au
centile de la même loi F avec une probabilité
cumulée
à l'intervalle de confiance imposé.
TEST
D'AJUSTEMENT DU KHI-DEUX
Nous allons étudier ici notre premier test d'hypothèse non-paramétrique,
un des plus connus certainement et des plus simples.
Supposons qu'une variable statistique
suive une loi de probabilité P.
Si nous tirons un échantillon dans la population correspondant à cette
loi, la distribution observée s'écartera toujours plus ou moins
de la distribution théorique, compte tenu des fluctuations d'échantillonnage. Généralement, nous ne connaissons ni la forme de la loi P,
ni la valeur de ses paramètres. C'est la nature du phénomène étudié et
l'analyse de la distribution observée qui permettent de choisir
une loi susceptible de convenir et d'en estimer les paramètres. Les écarts entre la loi théorique et la distribution observée
peuvent être attribués soit aux fluctuations d'échantillonnage,
soit au fait que le phénomène ne suit pas, en réalité, la loi
supposée. En gros, si les écarts sont suffisamment faibles, nous admettrons
qu'ils sont imputables aux fluctuations aléatoires et nous accepterons
la loi retenue ; au contraire, s'ils sont trop élevés, nous en
conclurons qu'ils ne peuvent pas être expliqués par les seules
fluctuations et que le phénomène ne suit pas la loi retenue. Pour évaluer ces écarts et pouvoir prendre une décision, il
faut : 1. Définir la mesure de la distance entre distribution empirique
et distribution théorique résultant de la loi retenue. 2. Déterminer la loi de probabilité suivie par cette variable
aléatoire donnant la distance
3. Énoncer une règle de décision
permettant de dire, d'après
la distribution observée, si la loi retenue est acceptable
ou non.
Nous aurons pour cela besoin du théorème central limite et
deuxièmement rappelons que lors lors de la construction de la
loi Normale, nous avons montré que la variable:
(7.282)
suivait une loi Normale centrée réduite lorsque n tendait
vers l'infini (condition de Laplace).
En pratique, l'approximation est tout à fait acceptable... dans
certaines entreprises... lorsque et soit
(c'était un des termes qui devait tendre vers zéro quand nous
avions fait la démonstration):
(7.283)
Par exemple dans les deux figures ci-dessous où nous avons
représenté les lois binomiales approchées par les lois Normales
associées, nous avons à gauche et à droite :

(7.284)
Rappelons enfin, que nous avons démontré que le sommes des
carrées de n variables aléatoires normales centrées réduites
linéairement indépendantes suit une loi du khi-deux à n degrés
de liberté noté . Considérons maintenant une variable aléatoire X suivant
une fonction de distribution théorique (continue ou discrète) P et
tirons un échantillon de taille n dans la population correspondant à cette
loi P. Les n observations seront réparties suivant k modalités
(classes de valeurs) C1, C2, ..., Ck,
dont les probabilités p1, p2, ..., pk sont
déterminées par la fonction de distribution P (se référer à l'exemple
de la droite de Henry). Pour chaque modalité Ci, l'effectif empirique
est lui une variable aléatoire ki de loi binomiale:
(7.285) Cet effectif ki correspond en effet au nombre
de succès "résultat égal à la modalité Ci" de
probabilité pi, obtenus au cours des n tirages
d'un lot expérimental (et non dans la population de la loi théorique
comme avant). Nous avons démontré lors de l'étude de la loi binomiale que
son espérance:
(7.286) représente l'effectif théorique de la modalité Ci et
sa variance est:
(7.287)
car pi est relativement petite, ce qui
donne qui
est assez proche de 1. Son écart-type est donc:
(7.288) Dans ces conditions, pourvu que la modalité Ci ait un effectif
théorique npi au moins égal à 5, l'écart réduit:
(7.289)
entre effectif empirique et effectif théorique peut être
approximativement considéré comme une variable normale centrée
réduite comme nous
l'avons vu plus haut.
Nous définissons alors la variable:
(7.290) où est
souvent nommée "fréquence expérimentale" et "fréquence
théorique". Signalons que cette variable est aussi parfois (un peu malheureusement)
notée:
(7.291)
ou le plus souvent:
(7.292)
Cette variable D, somme des carrés des variables Ei,
nous donne une mesure de ce que nous pourrions appeler une "distance" ou "différence" ou "écart" entre
distribution empirique et distribution théorique. Notons bien
cependant qu'il ne s'agit cependant pas d'une distance au sens
mathématique habituel (topologique). Rappelons que D peut donc aussi s'écrire:
(7.293)
D est donc la somme des carrés de N variables
aléatoires normales centrées réduites liées par la seule
relation linéaire:
(7.294)
où n est donc la taille de l'échantillon. Donc D suit
une loi khi-deux mais à N-1 degrés de liberté, donc un
degré de moins à cause
de l'unique relation linéaire qui les lie! Effectivement, rappelons
que le degré de liberté indique le nombre de variables indépendantes
dans la somme et non pas juste le nombre de termes sommés.
Donc:
(7.295)
Nous appelons ce test un "test
non-paramétrique du khi-2" ou "test
du khi-2 de Pearson" ou encore "test
d'ajustement
du khi-2" ou encore "test
de Karl Pearson".
Ensuite, l'habitude est de déterminer la valeur de la loi du
khi-deux à N-1 degrés de liberté ayant 5% de probabilité d'être
dépassée. Donc dans l'hypothèse où le phénomène étudié suit la
loi théorique P, il y a donc 95% de probabilité cumulée
que la variable D prenne une valeur inférieur à celle
donnée par la loi du khi-deux. Si la valeur de la loi du khi-deux obtenu à partir de l'échantillon
prélevé est inférieure à celle correspondant aux 95% de probabilité cumulée,
nous acceptons l'hypothèse selon laquelle le phénomène suit la
loi P.
Remarques:
R1. Le fait que l'hypothèse de la loi P soit
acceptée
ne signifie pas pour autant que cette hypothèse soit vraie,
mais simplement que les informations données par l'échantillon
ne permettent pas de la rejeter. De même, le fait que l'hypothèse
de la loi P soit rejetée ne signifie pas nécessairement
que cette hypothèse soit fausse mais que les informations
données
par l'échantillon conduisent plutôt à conclure à l'inadéquation
d'une telle loi.
R2. Pour que la variable D suive une loi du khi-deux,
il est nécessaire que les effectifs théoriques npi des
différentes modalités Ci soient au moins égaux à 5,
que l'échantillon soit tiré au hasard (pas d'autocorrélation) et
qu'aucune des probabilités pi soit trop
proche de zéro.
CALCULS
D'ERREURS/INCERTITUDES
Il est impossible de connaître (mesurer)
la valeur exacte d'une grandeur physique expérimentalement,
il est très important donc d'en déterminer l'incertitude.
Nous appelons bien évidemment
"erreur", la différence entre la valeur mesurée et
la valeur exacte. Cependant, comme nous ignorons la valeur exacte,
nous ne pouvons pas connaître l'erreur commise quand même....
Le résultat est donc toujours incertain. C'est la raison
pour laquelle nous parlons des "incertitudes
de mesure".
Nous distinguons deux types d'incertitudes
:
1. Les "erreurs systématiques"
: elles affectent le résultat constamment et dans le même
sens (erreurs des appareils de mesures, limites de précision,
etc.). Il faut alors éliminer, ou corriger le résultat,
si possible !
2. Les "erreurs accidentelles" (statistiques)
: il faut alors répéter les mesures, calculer la moyenne
et évaluer l'incertitude en utilisant les outils de statistique.
Le deuxième type d'erreurs faits un très gros usage de tous les
outils statistiques que nous avons présentés jusqu'à maintenant.
Nous ne reviendrons donc pas dessus et nous concentrerons alors
uniquement sur quelques nouveaux concepts.
INCERTITUDES ABSOLUES
ET RELATIVES
Si la vraie valeur d'une
grandeur est x (connue théoriquement) et la valeur
mesurée est ,
est "l'incertitude absolue" (l'incertitude dû aux appareils
de mesure) telle que :
(7.296)
Le résultat s'écrit alors
:
(7.297)
"L'incertitude relative" est quant à
elle définie par :
(7.298)
L'incertitude absolue permet de savoir
l'approximation du dernier chiffre significatif de celle-ci. Par
contre, lorsque nous désirons comparer deux mesures ayant
des incertitudes absolues afin de déceler lequel a la plus
grande marge d'erreur, nous calculons l'incertitude relative de
ce nombre en divisant l'incertitude absolue par le nombre, et transformé
en pourcentage.
En d'autres termes, l'incertitude relative permet d'avoir une
idée de la précision de la mesure en %. Si nous faisons
une mesure avec une incertitude
absolue de 1 [mm], nous ne saurons pas si c'est une bonne
mesure ou non. Ça
dépend si nous avons mesuré la taille d'une pièce
de monnaie, de notre voisin, de la distance Paris-Marseille ou
de la distance Terre-Lune. Bref, ça dépend de l'incertitude
relative (c'est-à-dire du rapport de l'incertitude absolue
sur la mesure).
ERREURS STATISTIQUES
Dans la plupart des mesures,
nous pouvons estimer l'erreur due à des phénomènes
aléatoires par une série de n mesures
:
Comme nous l'avons vu plus haut, la
valeur moyenne arithmétique sera alors :
(7.299)
et l'écart moyen (estimateur
biaisé démontré plus haut) :
(7.300)
et l'écart quadratique moyen
ou écart-type (estimateur sans biais) :
(7.301)
et nous avions démontré
que l'écart-type de la moyenne était donné
par :
(7.302)
et comme nous l'avons vu, après
un grand nombre de mesures indépendantes, la distribution
des erreurs sur une mesure suit une gaussienne tel que nous puissions
écrire :
(7.303)
bref nous pouvons réutiliser tous les outils statistiques
vus jusqu'à maintenant.
PROPAGATION DES
ERREURS
Soit une mesure
et
une fonction de x. Quelle est l'incertitude sur y
?
Lorsque
est petit, f(x)
est remplacé au voisinage de x par sa tangente (il
s'agit simplement de la dérivée bien sûr)
:
(7.304)
mais si y dépend
de plusieurs grandeurs x,z,t mesurées avec les incertitudes
:
(7.305)
alors l'erreur maximale possible est
alors la différentielle totale exacte (cf.
chapitre de Calcul Différentiel Et Intégral) :
(7.306)
Ce qui conduit à :
(7.307)
Il apparaît
ainsi clairement qu'une opération mathématique ne
peut améliorer l'incertitude sur les données.
Remarque: Le résultat d'une multiplication, d'une
division, d'une soustraction ou d'une addition est arrondi à autant
de chiffres significatifs que la donnée qui en comporte
le moins.
CHIFFRES
SIGNIFICATIFS
Dans les petites écoles
(et aussi les plus grande parfois), il est demandé de transformer
une mesure exprimée en une certaine unité en une autre
unité.
Par exemple, en prenant les
tables, nous pouvons avoir le type de conversion suivante :
(7.308)
Vient alors la question suivante
(que l'élève peut avoir oublié...). Au départ
d'une mesure dont la précision est de l'ordre de 1 [lb]
(donc de l'ordre de 0.5 [kg]), une simple conversion d'unité
pourrait-elle amener à une précision au 1/10 [mg]
près ?
De cet exemple il faut donc
retenir qu'une marge d'incertitude est associée à
toute valeur mesurée et à toute valeur calculée
à partir de valeurs mesurées.
Dans les sciences exactes,
tout raisonnement, toute analyse doit prendre cette incertitude
en compte.
Mais pourquoi des chiffres
sont-ils significatifs et d'autres pas alors ? Parce qu'en sciences,
nous ne rapportons que ce qui a objectivement été
observé (principe d'objectivité). En conséquence,
nous limitons l'écriture d'un nombre aux chiffres raisonnablement
fiables en dépit de l'incertitude : les chiffres significatifs.
La précision que des chiffres supplémentaires sembleraient
apporter est alors illusoire.
Il faut alors savoir arrondir
selon des règles et conventions:
- Lorsque le
chiffre de rang le plus élevé qu'on laisse tomber
est supérieur à 5, le chiffre précédent
est augmenté de 1 (exemple : 12.66 s'arrondit à 12.7).
Dans MS Excel:
=ROUND(12.66;1)=12.7
- Lorsque
le chiffre de rang le plus élevé qu'on
laisse tomber est inférieur à 5, le chiffre
précédent
reste inchangé (exemple 12.64 s'arrondit à 12.6).
Dans MS Excel:
=ROUND(12.64;1)=12.6
- Lorsque le chiffre de rang le plus élevé qu'on
laisse tomber est égal à 5, si un des chiffres qui
le suivent n'est pas nul, le chiffre précédent est
augmenter de 1 (exemple : 12.6502 s'arrondit à 12.7). Dans
MS Excel:
=ROUND(12.6502;1)=12.7
- Si
le chiffre de rang le plus élevé que nous laissons
tomber est un 5 terminal (qui n'est suivi d'aucun chiffre) ou
qui n'est suivi
que de zéros, nous augmentons de 1 le dernier chiffre du
nombre arrondi s'il est impair, sinon nous le laissons inchangé
(exemples : 12.75 s'arrondit à 12.8 et 12.65 à 12.6).
Dans ce dernier cas, le dernier chiffre du nombre arrondi est
toujours
un chiffre pair. Les tableurs ne respectent pas vraiment cette
dernière règle, effectivement avec MS Excel nous avons:
=ROUND(12.75;1)=12.8
=ROUND(12.65;1)=12.7
Au fait dans la pratique ces règles sont peu utilisées car les
logiciels (tableurs) n'intègrent pas des fonctions adaptées. Il
est alors d'usage d'arrondir simplement à la valeur de la décimale
la plus proche.
Les chiffres significatifs
d'une valeur comprennent tous ses chiffres déterminés
avec certitude ainsi que le premier chiffre sur lequel porte l'incertitude
(ce dernier significatif occupe le même rang que l'ordre de
grandeur de l'incertitude).
Souvent, les sources de données ne mentionnent pas d'intervalle
de confiance (c'est-à-dire une indication +/-). Par exemple,
lorsque nous écrivons
nous considérons conventionnellement que l'incertitude est
du même ordre de grandeur que le rang du dernier chiffre significatif
(soit le chiffre incertain).
En fait, seul le rang décimal
de l'incertitude est implicite : sa marge réelle n'est pas
précisée.
|