loadingPage en cours de chargement


    ACCUEIL | TÉLÉCHARGER | PETITES ANNONCES | FORUM | F.A.Q | LIVRE D'OR | PARTENAIRES | CONTACT | A PROPOS
 
  Rechercher
  separation
  introduction
  Arithmétique
  Algèbre
  Analyse
  Géométrie
  Mécanique
  Électrodynamique
  Atomistique
  Cosmologie
  Chimie
  Méthodes Numériques
  Maths. Sociales
  Ingénierie
  separation
  Biographies
  Bibliographie
  Liens
  separation
  Humour
  Serveur d'exercices
  separation
  Parrains
5 connectés
News News :: Erreur Erreur :: Statistiques Statistiques :: ClearType ClearType :: Imprimer Imprimer :: Bookmark and Share

Arithmétique

THÉORIE DE LA DÉMONSTRATION | NOMBRES | OPÉRATEURS ARITHMÉTIQUES |
THÉORIE DES NOMBRES | THÉORIE DES ENSEMBLES | PROBABILITÉS | STATISTIQUES

7. STATISTIQUES (2/2)

Dernière mise-à-jour de ce chapitre: 28.07.2010 18:54
Version: 2.1 Revision 7 | Avancement: ~90%

Table des matières LISTE DES SUJETS TRAITÉS SUR CETTE PAGE

eSTIMATEURS DE VRAISEMBLANCE

Ce qui va suivre est d'une extrême importance en statistiques et est utilisé énormément en pratique. Il convient donc d'y accorder une attention toute particulière!

Nous supposons que nous disposons d'observations equation qui sont des réalisations de variables aléatoires non biaisées (dans le sens qu'elles sont choisies aléatoirement parmi un lot) indépendantes equation de loi de probabilité inconnue mais identique.

Nous allons chercher à estimer cette loi de probabilité P inconnue à partir des observations equation.

Supposons que nous procédons par tâtonnement pour estimer la loi de probabilité P inconnue. Une manière de procéder est de se demander si les observations equation avaient une probabilité élevée ou non de sortir avec cette loi de probabilité arbitraire P

Nous devons pour cela calculer la probabilité conjointe qu'avaient les observations equation de sortir avec equation. Cette probabilité vaut (cf. chapitre de Probabilités):

equation   (7.1)

en notant P la loi de probabilité supposée associée à equation. Il faut avouer qu'il serait alors particulièrement maladroit de choisir une loi de probabilité (avec ses paramètres!) qui minimise cette quantité...

Au contraire, nous allons chercher la probabilité equation qui maximise equation, c'est-à-dire qui rende les observations equation le plus vraisemblable possible.

Nous sommes donc amené à chercher le (ou les) paramètre(s) equation qui maximise(nt) la quantité :

equation   (7.2)

Cette quantité L porte le nom de "vraisemblance". C'est une fonction du ou des paramètres equation et des observations equation.

La ou les valeurs du paramètre equation qui maximisent la vraisemblance equation sont appelées "estimateurs du maximum de vraisemblance" (estimateur MV).

Faisons quand même trois petits exemples (très classiques, utiles et importants dans l'industrie) avec dans l'ordre d'importance (donc pas forcément dans l'ordre de facilité...) la fonction de distribution de Gauss-Laplace (Normale), la fonction de distribution de Poisson et finalement Binomiale.

Remarque: Ces trois exemples sont importants car utilisés dans les SPC (maîtrise statistiques de processus) dans différentes multinationales à travers le monde (cf. chapitre de Génie Industriel).

ESTIMATEURS DE LA LOI NORMALE

Soit equation un n-échantillon de variables aléatoires identiquement distribuées supposées suivre une loi de Gauss-Laplace (loi Normale) de paramètres equation et equation .

Nous recherchons quelles sont les valeurs des estimateurs de maximum de vraisemblance equation qui maximisent la vraisemblance equation de la loi Normale ?

Remarque: Il va de soit que les estimateurs de maximum de vraisemblance equation sont ici :

equation   (7.3)

Nous avons démontré plus haut que la densité d'une variable aléatoire gaussienne était donnée par :

equation   (7.4)

La vraisemblance est alors donnée par:

equation   (7.5)

Maximiser une fonction ou maximiser son logarithme est équivalent donc la "log-vraisemblance" sera:

equation   (7.6)

Pour déterminer les deux estimateurs de la loi Normale, fixons d'abord l'écart-type. Pour cela, dérivons  equation par rapport à equation et regardons pour quelle valeur de la moyenne la fonction s'annule.

Il nous reste après simplification le terme suivant qui est égal à zéro:

equation   (7.7)

Ainsi, l'estimateur de maximum de vraisemblance de la moyenne (espérance) de la loi Normale est donc après réarrangement:

equation   (7.8)

et nous voyons qu'il s'agit simplement de la moyenne arithmétique (ou appelée aussi "moyenne empirique").

Fixons maintenant la moyenne. L'annulation de la dérivée de equation en equation conduit à :

equation   (7.9)

Ce qui nous permet d'écrire l'estimateur de maximum de vraisemblance pour l'écart-type (la variance lorsque la moyenne est connue selon la loi de distribution supposée elle aussi connue!):

equation   (7.10)

Cependant, nous n'avons pas encore défini ce qu'était un bon estimateur ! Ce que nous entendons par là:

- Si l'espérance d'un estimateur est égale à elle-même, nous disons que cet estimateur est "sans biais" et c'est bien évidemment ce que nous cherchons!

- Si l'espérance d'un estimateur n'est pas égale à elle-même, nous disons alors que cet estimateur est "biaisé" et c'est forcément moins bien...

Dans l'exemple précédent, la moyenne est donc non biaisée (trivial car la moyenne de la moyenne arithmétique est égale à elle même). Mais qu'en est-il de la variance (in extenso de l'écart-type) ?

Un petit calcul simple par linéarité de l'espérance (puisque les variables aléatoires sont identiquement distribuées) va nous donner la réponse dans le cas où la moyenne théorique est approchée comme dans la pratique (industrie) par l'estimateur de la moyenne (cas le plus fréquent).

Nous avons donc le calcul de l'espérance de la "variance empirique":

equation   (7.11)

Or, comme les variables sont équidistribuées:

equation   (7.12)

Et nous avons (formule de Huyghens):

equation    (7.13)

ainsi que :

equation   (7.14)

où la deuxième relation ne peut s'écrire que parce que nous utilisons l'estimateur de maximum de vraisemblance de la moyenne (moyenne empirique). D'où:

equation   (7.15)

et comme:

equation et equation   (7.16)

Nous avons finalement:

equation   (7.17)

nous avons donc un biais de -1 fois l'erreur-standard:

equation   (7.18)

Nous noterons également que l'estimateur tend vers un estimateur sans biais (E.S.B.) lorsque le nombre d'échantillons tend vers l'infini equation. Nous disons alors que nous avons un "estimateur asymptotiquement non biaisé".

Remarque: Un estimateur est aussi dit "estimateur consistant" s'il converge en probabilité, lorsque equation, vers la vraie valeur du paramètre.

De par les propriétés de l'espérance, nous avons alors:

equation   (7.19)

il vient alors:

equation   (7.20)

Nous avons donc finalement deux résultats importants:

1. L'estimateur de maximum de vraisemblance biaisé ou appelé également "variance empirique" ou encore "variance échantillonnale" et donc donné par:

equation  (7.21)

lorsque equation.

2. Et donc "l'estimateur de maximum vraisemblance non biaisé":

equation   (7.22)

deux relations que nous retrouvons souvent dans les tables et dans de nombreux logiciels et que nous utiliserons plus bas dans les développements des intervalles de confiance et des tests d'hypothèses!

Par exemple, dans MS Excel l'estimateur biaisé est donné par la fonction ECARTYPEP( ) et le non biaisé par ECARTTYPE( ).

Au total, cela nous fait donc trois estimateurs pour la même quantité!! Comme dans l'écrasante majorité des cas de l'industrie la moyenne théorique n'est pas connue, nous utilisons le plus souvent les deux dernières relations encadrées ci-dessus. Maintenant, c'est la que c'est le plus vicieux : lorsque nous calculons le biais des deux estimateurs, le premier est biaisé, le second ne l'est pas. Donc nous aurions tendance à utiliser que le second. Que nenni! Car nous pourrions aussi parler de la variance et de la précision d'un estimateur, qui sont aussi des critères importants pour juger de la qualité d'un estimateur par rapport à un autre. Si nous faisions le calcul de la variance des deux estimateurs, alors le premier, qui est biaisé, a une variance plus petite que le second qui est sans biais! Tout ça pour dire que le critère du biais n'est pas (et de loin) le seul à étudier pour juger de la qualité d'un estimateur.

Enfin, il est important de se rappeler que le facteur -1 du dénominateur de l'estimateur de maximum de vraisemblance non biaisé provient du fait qu'il fallait corriger l'espérance de l'estimateur biaisé à la base minoré de une fois l'erreur-standard!

In extenso, ils est possible de démontrer (mais c'est long) que si la variable aléatoire suivant une loi normale dont nous cherchons l'expression de l'estimateur non biaisé est la somme de k variables aléatoires linéairement indépendantes alors nous avons:

equation   (7.23)

ESTIMATEUR DE LA LOI DE POISSON

En utilisant la même méthode que pour la loi Normale (Gauss-Laplace), nous allons donc rechercher l'estimateur de maximum de vraisemblance la loi de Poisson qui rappelons-le, est définie par :

equation   (7.24)

Dès lors, la vraisemblance est donnée par :

equation   (7.25)

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.26)

Nous cherchons maintenant à la maximiser :

equation   (7.27)

et obtenons donc son unique estimateur de maximum de vraisemblance qui sera :

equation   (7.28)

Il est tout à fait normal de retrouver dans cet exemple didactique la moyenne empirique, car c'est le meilleur estimateur possible pour le paramètre de la loi de Poisson (qui représente aussi l'espérance d'une loi de Poisson).

Sachant que l'écart type de la distribution particulière (voir plus haut) n'est que la racine carrée de la moyenne, nous avons alors pour l'écart-type de maximum de vraisemblance biaisé:

equation   (7.29)

Remarque: Nous montrons de la même manière des résultats identiques pour la loi exponentielle très utilisée en maintenance préventive et fiabilité!

ESTIMATEUR DE LA LOI BINOMIALE

En utilisant la même méthode que pour la loi Normale (Gauss-Laplace) et la loi de Poisson, nous allons donc rechercher l'estimateur de maximum de vraisemblance la loi Binomiale qui rappelons-le, est définie par :

equation   (7.30)

Dès lors, la vraisemblance est donnée par :

equation   (7.31)

Il convient de se rappeler que le facteur qui suit le terme combinatoire exprime déjà les variables successives selon ce que nous avons vu lors de notre étude de la fonction de distribution de Bernoulli et de la fonction bin0miale.

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.32)

Nous cherchons maintenant à la maximiser :

equation   (7.33)

Ce qui donne :

equation   (7.34)

d'où nous tirons l'estimateur de maximum de vraisemblance biaisé qui sera :

equation   (7.35)

Ce résultat est assez intuitif si l'on considère l'exemple classique d'une pièce de monnaie qui à une chance sur deux de tomber sur une des ces faces. La probabilité p étant le nombre de fois k où une face donnée a été observée sur le nombre d'essais total (toutes faces confondues).

Remarque: Dans la pratique, il n'est pas aussi simple d'appliquer ces estimateurs! Il faut bien réfléchir lesquels sont les plus adaptés à une expérience donnée et idéalement calculer également l'erreur quadratique moyenne (erreur standard) de chacun des estimateurs de la moyenne (comme nous l'avons déjà fait pour la moyenne empirique plus tôt). Bref c'est un long travail de réflexion.

ESTIMATEUR DE LA LOI WEIBULL

Nous avons vu dans le chapitre de Génie Industriel une étude très détaillée de la loi de Weibull à trois paramètres avec son écart-type et son espérance car nous avions précisée qu'elle était assez utilisée dans le domaine de l'ingénierie de la fiabilité.

Malheureusement les trois paramètres de cette loi  nous sont en pratique inconnus. A l'aide des estimateurs nous pouvons cependant déterminer l'expression de deux des trois en supposant equation comme étant nul. Cela nous donne donc la loi de Weibull dite "à deux paramètres" suivante:

equation   (7.36)

avec pour rappel equation et equation.

Dès lors la vraisemblance est donnée par:

equation   (7.37)

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.38)

Cherchons maintenant à maximiser cela en se rappelant que (cf. chapitre de Calcul Différentiel et Intégral):

equation et equation   (7.39)

d'où:

equation   (7.40)

Et nous avons pour le deuxième paramètre:

equation   (7.41)

d'où:

equation   (7.42)

Finalement avec les écritures correctes (et dans l'ordre de résolution dans la pratique):

equation et equation   (7.43)  

La résolution de ces équations implique de lourds calculs et on peut rien en tirer dans les tableaux classiques comme MS Excel ou Calc de Open Office.

On prend alors une approche différente en écrivant notre loi de Weibull à deux paramètres ainsi:

equation   (7.44)

avec pour rappel equation et equation.

Dès lors la vraisemblance est donnée par:

equation   (7.45)

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.46)

Cherchons maintenant à maximiser cela en se rappelant que (cf. chapitre de Calcul Différentiel et Intégral):

equation et equation   (7.47)

d'où:

equation   (7.48)

Et nous avons pour le deuxième paramètre:

equation   (7.49)

Il est alors immédiat que:

equation   (7.50)

injecté dans la relation:

equation   (7.51)

Il vient:

equation   (7.52)

en simplifiant:

equation   (7.53)

La résolution des deux équations (dans l'ordre de haut en bas):

equation   (7.54)

peut très facilement être calculé avec l'outil Valeur Cible de MS Excel ou Calc de Open Office.

INTERVALLES DE CONFIANCE

Jusqu'à maintenant nous avons toujours déterminé les différents estimateurs de vraisemblance ou estimateurs simples (variance, écart-type) à partir de lois (fonctions) statistiques théoriques ou mesurées sur toute une population de données.

Nous allons maintenant aborder une approche un peu différente et importante dans l'industrie en se demandant maintenant quelles doivent être les tailles d'échantillons pour avoir une certaine validité (intervalle de confiance I.C.) pour les données mesurées ou encore quel écart-type ou fractile dans une loi Normale centrée réduite (grand nombre d'échantillons), du Khi-deux, de Student ou de Fisher correspond à un certain intervalle de confiance (nous verrons ces deux derniers cas de faibles échantillons dans la partie traitant de l'analyse de la variance ou ANOVA) lorsque la variance ou la moyenne est connue ou respectivement inconnue sur l'ensemble ou une partie de la population de donnée.

Indiquons que ces intervalles de confiance utilisent le théorème central limite démontré plus loin (afin d'éviter toute frustration) et que les développements que nous allons faire maintenant nous seront également utiles dans le domaine des Tests d'Hypothèse qui ont une place majeure en statistique!

I.C. SUR LA MOYENNE AVEC VARIANCE théorique CONNUE

Commençons par le cas le plus simple et le plus courant qui est la détermination du nombre d'échantillons pour avoir une certaine confiance dans la moyenne des mesures effectuées d'une variable aléatoire supposée suivre une loi Normale.

D'abord rappelons que nous avons démontré au début de ce chapitre que l'erreur-type (écart-type à la moyenne) était :

equation   (7.55)

Maintenant, avant d'aller plus loin, considérons X comme une variable aléatoire suivant une loi Normale de moyenne equation et d'écart-type equation. Nous souhaiterions déterminer à combien de sigma correspond un intervalle de confiance de 95%. Pour déterminer cela, nous écrivons d'abord:

equation   (7.56)

Remarque: Donc avec un intervalle de confiance de 95% vous aurez raison 19 fois sur 20, ou n'importe quel autre niveau de confiance ou niveau de risque (1-niveau de confiance, soit 5%) que vous vous serez fixé à l'avance. En moyenne, vos conclusions seront donc bonnes, mais nous ne pourrons jamais savoir si une décision particulière est bonne! Si le niveau de risque est très faible mais que l'événement a quand même lieu, les spécialiste parlent alors de "grande déviation".

En centrant et réduisant la variable aléatoire :

equation   (7.57)

Notons maintenant Y la variable centrée réduite :

equation   (7.58)

Puisque la loi Normale centrée réduite est symétrique :

equation   (7.59)

D'où :

equation   (7.60)

A partir de là en lisant dans les tables numériques de la loi Normale centrée réduite, nous avons pour satisfaire cette égalité que :

equation   (7.61)

Ce qui s'obtient facilement avec MS Excel en utilisant la fonction: -NORMSINV((1-0.95)/2).

Donc :

equation   (7.62)

Ce qui est noté de façon traditionnelle dans le cas général autre que 95% par (Z n'est pas une variable aléatoire c'est juste le facteur qui est la variable suivante) :

equation   (7.63)

Or, considérons que la variable X sur la quelle nous souhaitons faire de l'inférence statistique est justement la moyenne (et nous démontrerons plus loin que celle-ci suit une loi Normale centrée réduite). Dès lors :

equation   (7.64)

nous en tirons :

equation   (7.65)

Ainsi, nous pouvons maintenant savoir le nombre d'échantillons à avoir pour s'assurer un intervalle de précision equation (marge d'erreur) autour de la moyenne et pour qu'un pourcentage donné des mesures se trouvent dans cet intervalle et en supposant l'écart-type expérimental equation connu (ou imposé) d'avance (typiquement utilisé dans l'ingénierie de la qualité ou les instituts de sondages).

Autrement dit, nous pouvons calculer le nombre n d'échantillons à mesurer pour s'assurer un intervalle de confiance donné (associé à Z) de la moyenne mesurée en supposant l'écart-type expérimental connu (ou imposé) et en souhaitant un précision de equation en valeur absolue sur la moyenne.

Cependant... en réalité, la variable Z provient du théorème central limite (voir plus bas) qui donne pour un échantillon de grande taille (approximativement):

equation   (7.66)

En réarrangeant nous obtenons:

equation   (7.67)

et comme Z peut être négatif ou positif alors il est plus censé d'écrire cela sous la forme:

equation   (7.68)

Soit:

equation   (7.69)

que les ingénieurs notent parfois:

equation   (7.70)

avec LCL étant la lower confidence limit et UCL la upper confidence limit. C'est de la terminologie Six Sigma (cf. chapitre de Génie Industriel).

Et nous venons de voir plus avant que pour avoir un intervalle de confiance à 95% nous devions avoir Z=1.96. Et puisque la loi Normale est symétrique:

equation   (7.71)

Cela se note finalement:

equation   (7.72)

soit dans le cas d'un I.C. (intervalle de confiance) à 95%:

equation   (7.73)

Nous sommes ainsi capables maintenant d'estimer des tailles de population nécessaires à obtenir un certain niveau de confiance dans un résultat, soit d'estimer dans quel intervalle de confiance se trouve la moyenne théorique par rapport à la moyenne expérimentale (empirique).

I.C. SUR LA VARIANCE AVEC moyenne théorique CONNUE

Commençons à démontrer une propriété fondamentale de la loi du khi-deux :

Si une variable aléatoire X suit une loi Normale centrée réduite equation alors son carré suit une loi du khi-deux de degré de liberté 1 :

equation   (7.74)

Démonstration:

Pour démontrer cette propriété, il suffit de calculer la densité de la variable aléatoire equation avec equation. Or, si equation et si nous posons equation, alors pour tout equation nous obtenons:

equation   (7.75)

Puisque la loi Normale centrée réduite est symétrique par rapport à 0 pour la variable aléatoire X, nous pouvons écrire :

equation   (7.76)

En notant equation la fonction de répartition de la loi Normale centrée réduite (sa probabilité cumulée en d'autres termes pour rappel...), nous avons :

equation   (7.77)

et comme :

equation   (7.78)

alors  :

equation   (7.79)

La fonction de répartition de la variable aléatoire (probabilité cumulée) equation est donne donnée par :

equation   (7.80)

si y est supérieur ou égal à zéro, nulle si y inférieur à zéro. Nous noterons cette réparation equation pour la suite des calculs.

Puisque la fonction de distribution est la dérivée de la fonction de répartition et que X suit une loi Normale centrée réduite alors nous avons pour la variable aléatoire X :

equation   (7.81)

alors nous avons pour la loi de distribution de Y  (qui est donc le carré de X pour rappel!) :

equation   (7.82)

cette dernière expression correspond exactement à la relation que nous avions obtenu lors de notre étude de la loi du khi-deux en imposant un degré de liberté unité.

Le théorème est donc bien démontré tel que si X suit une loi Normale centrée réduite alors son carré suit une loi du khi-deux à 1 degré de liberté tel que :

equation   (7.83)

equationC.Q.F.D.

Ce type de relation est utilisé dans les processus industriels et leur contrôle (cf. chapitre de Génie Industriel).

Nous allons maintenant utiliser un résultat démontré lors de notre étude de la loi Gamma. Nous avons effectivement vu plus haut que la somme de deux variables aléatoires suivant une loi Gamma suit aussi une loi Gamma dont les paramètres s'additionnent :

equation   (7.84)

Comme la loi du khi-deux n'est qu'un cas particulier de la loi Gamma, le même résultat s'applique.

Pour être plus précis, cela revient à écrire :

Si equation sont des variables aléatoires indépendantes (!) et identiquement distribuées N(0,1) alors par extension de la démonstration précédente où nous avons montré que:

equation   (7.85)

et de la propriété d'addition de la loi Gamma, la somme de leurs carrés suit alors une loi du khi-deux de degré k tel que:

equation   (7.86)

Ainsi, la loi du equation à k degrés de liberté est la loi de probabilité de la somme des carrés de k variables normales centrées réduites linéairement indépendantes entre elles. Il s'agit de la propriété de linéarité de la loi du Khi-deux (implicitement de la linéarité de la loi Gamma)!

Maintenant voyons une autre propriété importante de la loi du khi-deux : Si equation sont des variables aléatoires indépendantes et identiquement distribuées equation (donc de même moyenne et même écart-type et suivant une loi Normale) et si nous notons l'estimateur de maximum de vraisemblance de la variance:

equation   (7.87)

alors, le rapport de la variable aléatoire equation sur l'écart-type supposé connu de l'ensemble de la population (dit "écart-type vrai" ou "écart-type théorique" pour bien différencier!) multiplié par le nombre d'échantillons n de la population suit une loi du khi-deux de degré n telle que :

equation   (7.88)

Remarques:

R1. En laboratoire, les equation peuvent être vues comme une classe d'échantillons d'un même produit étudié identiquement par différentes équipes de recherche avec des instruments de même précision (écart-type de mesure nul).

R2. equation est la "variance interclasse" également appelée "variance expliquée". Donc elle donne la variance d'une mesure ayant eu lieu dans les différents laboratoires.

Ce qui est intéressant c'est qu'à partir du calcul de la loi du khi-deux en connaissant n et l'écart-type equation il est possible d'estimer cette variance (écart-type) interclasse.

Pour voir que cette dernière propriété est une généralisation élémentaire de la relation :

equation   (7.89)

il suffit de constater que la variable aléatoire equation est une somme de n carrés de N(0,1) indépendants les uns des autres. Effectivement, rappelons qu'une variable aléatoire centrée réduite (voir notre étude de la loi Normale) est donnée par :

equation   (7.90)

Dès lors :

equation   (7.91)

Or, puisque les variables aléatoires equation sont indépendantes et identiquement distribuées selon une loi Normale, alors les variables aléatoires :

equation   (7.92)

sont aussi indépendantes et identiquement distribuées mais selon une loi Normale centrée réduite.

Puisque:

equation   (7.93)

en réarrangeant nous obtenons:

equation   (7.94)

Donc sur la population de mesures, l'écart-type vrai suit la relation donnée ci-dessus. Il est donc possible de faire de l'inférence statistique sur l'écart-type lorsque la moyenne théorique est connue (...).

Puisque la fonction du khi-deux n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors l'intervalle de confiance à 95% (par exemple...) de la manière suivante:

equation   (7.95)

Soit en notant equation:

equation   (7.96)

le dénominateur étant alors bien évidemment la probabilité cumulée. Cette relation est rarement utilisée dans la pratique car la moyenne théorique n'est pas connue. Voyons donc le cas le plus courant:

I.C. SUR LA VARIANCE AVEC moyenne empirique connue

Cherchons maintenant à faire de l'inférence statistique lorsque la moyenne théorique de la population equation n'est pas connue. Pour cela, considérons maintenant la somme:

equation   (7.97)

où pour rappelequationest la moyenne empirique (arithmétique) de l'échantillon:

equation   (7.98)

En continuant le développement nous avons:

equation
  (7.99)

Or, nous avons démontré au début de ce chapitre que la somme des écarts à la moyenne était nulle. Donc:

equation
  (7.100)

et reprenons l'estimateur sans biais de la loi Normale (nous changeons de notation pour respecter les traditions et bien différencier la moyenne empirique de la moyenne théorique):

equation   (7.101)

Dès lors:

equation   (7.102)

ou autrement écrit:

equation   (7.103)

Puisque le deuxième terme (au carré) suit une loi Normale centrée réduite aussi, alors si nous le supprimons nous obtenons de par la propriété démontrée plus haut de la loi du Khi-deux:

equation   (7.104)

Ces développements nous permettent cette fois-ci de faire aussi de l'inférence sur la variance equation d'une loi equation lorsque les paramètres equation et equation sont tous les deux inconnus pour l'ensemble de la population. C'est ce résultat qui nous donne, par exemple, l'intervalle de confiance:

equation   (7.105)

lorsque la moyenne théorique equation est donc inconnue.

I.C. SUR LA MOYENNE AVEC moyenne empirique connue

Nous avons démontré beaucoup plus haut que la loi de Student provenait de la relation suivante:

equation   (7.106)

si Z et U sont des variables aléatoires indépendantes et si Z suit une loi Normale centrée réduite N(0,1) et U une loi du khi-deux equation tel que:

equation   (7.107)

Voici une application très importante du résultat ci-dessus:

Supposons que equation constituent un échantillon aléatoire de taille n issu de la loi equation. Alors nous pouvons déjà écrire que selon les développements faits plus haut:

equation   (7.108)

Et pour U qui suit une loi equation, si nous posons equation alors selon les résultats obtenus plus haut:

equation   (7.109)

Nous avons alors après quelques simplifications triviales:

equation   (7.110)

Donc puisque:

equation   (7.111)

suit une loi de Student de paramètre k alors nous obtenons le "independant one-sample t-test":

equation   (7.112)

suit aussi une loi de Student de paramètre n-1.

Ce qui nous donne aussi :

equation   (7.113)

Ce qui nous permet de faire de l'inférence sur la moyenne equation d'une loi Normale d'écart-type inconnu mais dont l'estimateur sans biais de l'écart-type est connu (donc l'écart-type théorique est inconnu!). C'est ce résultat qui nous donne l'intervalle de confiance:

equation   (7.114)

où nous retrouvons les mêmes indices que pour l'inférence statistique sur la moyenne d'une variable aléatoire d'écart-type connu puisque la loi de Student est symétrique!

Remarque: Le résultant précédent fut obtenu par William S. Gosset aux alentours de 1910. Gosset qui avait étudié les mathématiques et la chimie, travaillait comme statisticien pour la brasserie Guinness en Angleterre. À l'époque, on savait que si equation sont des variables aléatoires indépendantes et identiquement distribuées alors:

equation   (7.115)

Toutefois, dans les applications statistiques on s'intéressait bien évidemment plutôt à la quantité:

equation   (7.116)

on se contentait alors de supposer que cette quantité suivait à peu près une loi Normale centrée réduite ce qui n'était pas une mauvais approximation comme le montre l'image ci-dessous (equation):

equation
  (7.117)

Suite à de nombreuses simulations, Gosset arriva à la conclusion que cette approximation était valide seulement lorsque n est suffisamment grand (donc cela lui donnait l'indication comme quoi il devait y avoir quelque part derrière le théorème central limite). Il décida de déterminer l'origine de la distribution et après avoir suivi un cours de statistique avec Karl Pearson il obtint son fameux résultat qu'il publia sous le pseudonyme de Student. Ainsi, on appelle loi de Student la loi de probabilité qui aurait dû être appelée la loi ou fonction de Gosset.

Signalons enfin que le test de student est très utilisée pour identifier si des variations (progressions ou l'inverse) de la moyenne de chiffres de deux populations identiques sont significatives.

LOI FAIBLE DES GRANDS NOMBRES

Nous allons maintenant nous attarder sur une relation très intéressante en statistique qui permet de dire pas mal de choses tout en ayant peu de données et ce quelque soit la loi considérée (ce qui est pas mal quand même!). C'est une propriété très utilisée en simulation statistique par exemple dans le cadre de l'utilisation de Monte-Carlo.

Soit une variable aléatoire à valeurs dans equation. Alors nous allons démontrer la relation suivante appelée "inégalité de Markov" :

equation   (7.118)

avec equation  dans le contexte particulier des probabilités.

En d'autres termes, nous proposons de démontrer que la probabilité qu'une variable aléatoire soit plus grande ou égale qu'une valeur equation est inférieure ou égale à son espérance divisée par la valeur considérée equation et ce quelle que soit la loi de distribution de la variable aléatoire X!

Démonstration:

Notons les valeurs de X par equation, où equation (c'est-à-dire triées par ordre croissant) et posons equation. Nous remarquons d'abord que l'inégalité est triviale au cas ou equation. Effectivement, comme X ne peut être compris qu'entre 0 et equation par définition alors la probabilité qu'il soit supérieure à equation est nul. En d'autres termes :

equation   (7.119)

et X étant positif, E(X) l'est aussi, d'où l'inégalité pour ce cas particulier dans un premier temps.

Sinon, nous avons equation et il existe alors un equation tel que equation. Donc :

equation   (7.120)

equationC.Q.F.D.

exempleExemple :

Nous supposons que le nombre de pièces sortant d'une usine donnée en l'espace d'une semaine est une variable aléatoire d'espérance 50. Si nous souhaitons estimer la probabilité cumulée que la  production dépasse 75 pièces nous appliquerons simplement :

equation   (7.121)

Considérons maintenant une sorte de généralisation de cette inégalité appelée "inégalité de Bienaymé-Tchebychev" (abrégée "inégalité BT") qui va nous permettre d'obtenir un résultat très intéressant un peu plus bas.

Considérons une variable aléatoire X. Alors nous allons démontrer l'inégalité de Bienaymé-Tchebychev suivante:

equation   (7.122)

qui exprime le fait que plus l'écart-type est petit, plus la probabilité que la variable aléatoire X s'éloigne de sont espérance est faible.

Nous obtenons cette inégalité en écrivant d'abord :

equation   (7.123)

et le choix du carré va nous servir pour une simplification future.

Puis en appliquant l'inégalité de Markov (comme quoi c'est quand même utile...) à la variable aléatoire equation avec equation il vient automatiquement :

equation   (7.124)

Ensuite, en utilisant la définition de la variance:

equation    (7.125)

Nous obtenons bien:

equation   (7.126)

Si nous posons:

equation   (7.127)

l'inégalité s'écrit:

equation   (7.128)

et exprime que la probabilité que pour que X s'éloigne de son espérance de plus que t fois son écart-type, est inférieure à equation. Il y a, en particulier, moins de 1 chance sur 9 pour que X s'éloigne de son espérance de plus de trois fois l'écart-type.

exempleExemple :

Nous reprenons l'exemple où le nombre de pièces sortant d'une usine donnée en l'espace d'une semaine est une variable aléatoire d'espérance 50. Nous supposons en plus que la variance de la production hebdomadaire est de 25. Nous cherchons à calculer la probabilité que la production de la semaine prochaine soit comprise entre 40 et 60 pièces.

Pour calculer ceci il faut d'abord se souvenir que l'inégalité de BT est basée en parties sur le terme equation donc nous avons :

equation   (7.129)

donc l'inégalité de BT nous permet bien de travailler sur des intervalles égaux en valeur absolue ce qui s'écrit aussi :

equation   (7.130)

Ensuite, ne reste plus qu'à appliquer simplement l'inégalité numériquement :

equation   (7.131)

Ces deux dernières inégalités vont nous permettre d'obtenir une relation très importante et puissante que nous appelons la "loi faible des grands nombres" (L.F.G.N.) ou encore "théorème de Khintchine".

Considérons une variable aléatoire X admettant une variance et equation une suite de variables aléatoires indépendantes (donc non corrélées deux-deux) de même loi que X et ayant toutes les mêmes espérances equation et les mêmes écarts-types equation.

Ce que nous allons montrer est que si nous mesurons une même quantité aléatoire equation de même loi au cours d'une suite d'expériences indépendantes (alors dans ce cas, nous disons techniquement que la suite equation de variables aléatoires sont définies sur le même espace probabilisé), alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance de X quand le nombre de mesures est infiniment élevée.

De manière formelle ceci s'exprime sous la forme :

equation  (7.132)

lorsque equation.

Donc en d'autres termes la probabilité cumulée que la différence entre la moyenne arithmétique et l'espérance des variables aléatoires observées soit compris dans un intervalle autour de la moyenne tend vers zéro quand le nombre de variables aléatoires mesurées tend vers l'infini (ce qui est finalement intuitif).

Ce résultat nous permet d'estimer l'espérance mathématique en utilisant la moyenne empirique (arithmétique) calculée sur un très grand nombre d'expériences.

Démonstration:

Nous utilisons l'inégalité de Bienaymé-Tchebychev pour la variable aléatoire (cette relation s'interprète difficilement mais permet d'avoir le résultat escompté) :

equation   (7.133)

Et nous calculons d'abord en utilisant les propriétés mathématiques de l'espérance que nous avions démontrées plus haut:

equation   (7.134)

et dans un deuxième temps en utilisant les propriétés mathématiques de la variance aussi déjà démontrées plus haut :

equation   (7.135)

et puisque nous avons supposé les variables non corrélées entre elles alors la covariance est nulle dès lors :

equation   (7.136)

Donc en injectant cela dans l'inégalité BT :

equation   (7.137)

nous avons alors :

equation   (7.138)

qui devient :

equation   (7.139)

et l'inégalité tend bien vers zéro quand n au numérateur tend vers l'infini.

equationC.Q.F.D.

Signalons que cette dernière relation est souvent notée dans certains ouvrages et conformément à ce que nous avons vu au début de ce chapitre:

equation   (7.140)

ou encore:

equation   (7.141)

Donc, pour equation:

equation   (7.142)

FONCTION CARACTÉRISTIQUE

Avant de donner une démonstration à la manière ingénieur du théorème central limite, introduisons d'abord la conception de "fonction caractéristique" qui tient une place centrale en statistiques.

D'abord, rappelons que la transformée de Fourier est donnée dans sa version physicienne par (cf. chapitre de Suites et Séries) la relation:

equation   (7.143)

Rappelons que la transformation de Fourier est un analogue de la théorie des séries de Fourier pour les fonctions non périodiques, et permet de leur associer un spectre en fréquences.

Nous souhaitons maintenant démontrer que si:

equation alors equation   (7.144)

En d'autres termes, nous cherchons une expression simplifiée de la transformée de Fourier de la dérivée de f(x).

Démonstration:

Nous partons donc de:

equation   (7.145)

Une intégration par parties donne :

equation   (7.146)

En imposant que,  f tend vers zéro à l'infini, nous avons alors:

equation   (7.147)

et:

equation   (7.148)

C'est la premier résultat dont nous avions besoin.

equationC.Q.F.D.

Maintenant, démontrons que si:

equation alors equation   (7.149)

Démonstration:

Nous partons donc de:

equation   (7.150)

C'est le deuxième résultat dont nous avions besoin.

equationC.Q.F.D.

Maintenant effectuons le calcul de la transformée de Fourier de la loi Normale centrée-réduite (ce choix n'est pas innocent...) :

equation   (7.151)

Nous savons que cette dernière relation est trivialement solution de l'équation différentielle (ou bien elle vérifie) :

equation   (7.152)

en prenant la transformée de Fourier des deux côté de l'égalité, nous avons en utilisant les deux résultats précédents:

equation alors equation   (7.153)
equation alors equation

Nous avons:

equation   (7.154)

Ou encore:

equation   (7.155)

Donc après intégration:

equation   (7.156)

Nous avons:

equation   (7.157)

Nous avons démontré lors de notre étude de la loi Normale que:

equation   (7.158)

Donc:

equation   (7.159)

Nous avons alors (résultat important!):

equation   (7.160)

Introduisons maintenant la fonction caractéristique telle que définie par les statisticiens:

equation   (7.161)

qui est un outil analytique important et puissant permettant d'analyser une somme de variables aléatoires indépendantes. De plus, cette fonction contient toutes les informations caractéristiques de la variable aléatoire X.

Remarque: La notation n'est pas innocente puisque le E[...] représente une espérance de la fonction de densité par rapport à l'exponentielle complexe.

Donc la fonction caractéristique de la variable aléatoire normale centrée réduite de distribution:

equation   (7.162)

devient simple à déterminer car:

equation   (7.163)

raison pour laquelle la fonction caractéristique de la loi Normale centrée réduite est souvent assimilée à une simple transformée de Fourier.

Et grâce au résultat précédent:

equation   (7.164)

Donc:

equation   (7.165)

qui est le résultat dont nous avons besoin pour le théorème central limite.

Mais avant cela, regardons d'un peu plus près cette fonction caractéristique:

equation   (7.166)

En développement de MacLaurin nous avons (cf. chapitre Suites et Séries) et en changeant un peu les notations:

equation   (7.167)

et en intervertissant la somme et l'intégrale, nous avons:

equation   (7.168)

Cette fonction caractéristique contient donc tous les moments (terme général utilisé pour l'écart-type et l'espérance) de X.

THÉORÈME CENTRAL LIMITE

Le théorème central limite est un ensemble de résultats du début du 20ème siècle sur la convergence faible d'une suite de variables aléatoires en probabilité. Intuitivement, d'après ces résultats, toute somme  (implicitement: la moyenne de ses variables) de variables aléatoires indépendantes et identiquement distribuées tend vers une certaine variable aléatoire. Le résultat le plus connu et le plus important est simplement appelé "théorème central limite" qui concerne une somme de variables aléatoires dont le nombre tend vers l'infini et c'est celui-ci que nous allons démontrer de manière heuristique ici.

Dans le cas le plus simple, considéré ci-dessous pour la démonstration du théorème, ces variables sont continues, indépendantes et possèdent la même moyenne et la même variance. Pour tenter d'obtenir un résultat fini, il faut centrer cette somme en lui soustrayant sa moyenne et la réduire en la divisant par son écart-type. Sous des conditions assez larges, la loi de probabilité (de la moyenne) converge alors vers une loi Normale centrée réduite. L'omniprésence de la loi Normale s'expliquant par le fait que de nombreux phénomènes considérés comme aléatoires sont dus à la superposition de causes nombreuses.

Ce théorème de probabilités possède donc une interprétation en statistique mathématique. Cette dernière associe une loi de probabilité à une population. Chaque élément extrait de la population est donc considéré comme une variable aléatoire et, en réunissant un nombre n de ces variables supposées indépendantes, nous obtenons un échantillon. La somme de ces variables aléatoires divisée par n donne une nouvelle variable nommée la moyenne empirique. Celle-ci, une fois réduite, tend vers une variable Normale réduite lorsque n tend vers l'infini comme nous le savons.

Le théorème central limite nous dit à quoi il faut s'attendre en matière de sommes de variables aléatoires indépendantes. Mais qu'en est-il des produits ? Eh bien, le logarithme d'un produit (à facteurs strictement positifs) est la somme des logarithmes des facteurs, de sorte que le logarithme d'un produit de variables aléatoires (à valeurs strictement positives) tend vers une loi Normale, ce qui entraîne une loi log-Normale pour le produit lui-même.

En elle-même, la convergence vers la loi Normale de nombreuses sommes de variables aléatoires lorsque leur nombre tend vers l'infini n'intéresse que le mathématicien. Pour le praticien, il est intéressant de s'arrêter un peu avant la limite : la somme d'un grand nombre de ces variables est presque gaussienne, ce qui fournit une approximation souvent plus facilement utilisable que la loi exacte.

En s'éloignant encore plus de la théorie, on peut dire que bon nombre de phénomènes naturels sont dus à la superposition de causes nombreuses, plus ou moins indépendantes. Il en résulte que la loi Normale les représente de manière raisonnablement efficace.

A l'inverse, on peut dire qu'aucun phénomène concret n'est vraiment gaussien car il ne peut dépasser certaines limites, en particulier s'il est à valeurs positives.

Démonstration:

Soit equation une suite (échantillon) de variables aléatoires continues (dans notre démonstration simplifiée...), indépendantes (mesures de phénomènes physiques ou mécaniques indépendants par exemple) et identiquement distribuées, dont la moyenne equationet l'écart-type equation existent.

Nous avons vu au début de ce chapitre que:

equation   (7.169)

sont les mêmes expressions d'une variable centrée réduite générée à l'aide d'une suite de n variables aléatoires identiquement distribuées qui par construction a donc une moyenne nulle et une variance unitaire:

equation et equation   (7.170)

Développons la première forme de l'égalité antéprécédente (elles sont de toute façon égales les deux!):

equation   (7.171)

Maintenant utilisons la fonction caractéristique de la loi Normale centrée-réduite:

equation   (7.172)

Comme les variables aléatoires equation sont indépendantes et identiquement distribuées, il vient:

equation   (7.173)

Un développement de Taylor du terme entre accolades donne au troisième ordre:

equation   (7.174)

Finalement:

equation
  (7.175)

Posons:

equation   (7.176)

Nous avons alors:

equation   (7.177)

Nous avons donc quand x tend vers l'infini (cf. chapitre d'Analyse fonctionnelle):

equation   (7.178)

Nous retrouvons donc la fonction caractéristique de la loi Normale centrée réduite!

En deux mots, le Théorème Central Limite (TCL) dit que pour de grands échantillons, la somme centrée et réduite de n variables aléatoires identiquement distribuées suit une loi Normale centrée et réduite. Et donc nous avons in extenso pour la moyenne empirique:

equation   (7.179)

Malgré l'immensité de son champ d'applications, le TCL n'est pas universel. Dans sa forme la plus simple, il impose en particulier à la variable considérée d'avoir des moments du premier et du deuxième ordre (moyenne et variance). Si tel n'est pas le cas, il ne s'applique plus.

L'exemple le plus simple d'échec du TLC est donné par la distribution de Cauchy, qui n'a ni moyenne, ni variance, et dont la moyenne empirique a toujours la même distribution (Cauchy) quelle que soit la taille de l'échantillon.

Maintenant, nous allons illustrer le théorème central limite dans le cas d'une suite equation de variables aléatoires indépendantes discrètes suivant une loi de Bernoulli de paramètre 1/2.

Nous pouvons imaginer que equation représente le résultat obtenu au n-ème lancé d'une pièce de monnaie (en attribuant le nombre 1 pour pile et 0 pour face). Notons:

equation   (7.180)

la moyenne. Nous avons pour tout n bien évidemment:

equation    equation   (7.181)

et donc:

equation      equation   (7.182)

Après avoir centré et réduit equation nous obtenons:

equation   (7.183)

Notons equation la fonction de répartition de la loi Normale centrée réduite.

Le théorème central limite nous dit que pour tout equation:

equation   (7.184)

A l'aide de Maple nous avons tracé en bleu quelques graphiques de la fonction:

equation   (7.185)

pour différentes valeurs de n. Nous avons représenté en rouge la fonction equation.

equation :

equation
  (7.186)

equation :

equation
  (7.187)

equation

equation
  (7.188)

equation

equation
  (7.189)

Ces graphiques obtenus avec Maple à l'aide des commandes suivantes:

> with(stats):
> with(plots):
> e1:=plot(Heaviside(t+1)*statevalf[dcdf,binomiald[1,0.5]](trunc((t+1)/2)),t=-2..2,y=0..1,color=blue):
> e2:=plot(Heaviside(t+sqrt(2))*statevalf[dcdf,binomiald[2,0.5]](trunc((t*sqrt(2)+2)/2)),t=-sqrt(2)-1..sqrt(2)+1,y=0..1,color=blue):
> e3:=plot(Heaviside(t+sqrt(5))*statevalf[dcdf,binomiald[5,0.5]](trunc((t*sqrt(5)+5)/2)),t=-sqrt(5)-1..sqrt(5)+1,y=0..1,color=blue):
> e4:=plot(statevalf[cdf,normald](t),t=-5..5):
> e5:=plot(Heaviside(t+sqrt(30))*statevalf[dcdf,binomiald[30,0.5]](trunc((t*sqrt(30)+30)/2)),t=-sqrt(30)-1..sqrt(30)+1,y=0..1,color=blue):
> display({e1,e4});
> display({e2,e4});
> display({e4,e3});
> display({e5,e4});

montrent bien la convergence de equation vers equation.

En fait nous remarquons que la convergence est carrément uniforme ce qui est confirmé par le "théorème central limite de Moivre-Laplace":

Soit equation une suite de variables aléatoires indépendantes de même loi de Bernoulli de paramètre p, equation. Alors:

equation   (7.190)

tend uniformément vers equation sur equation lorsque equation.

TESTS D'HYPOTHÈSE (OU D'ADÉQUATION)

Lors de notre étude des intervalles de confiance, rappelons nous sommes arrivées aux relations suivantes:

equation   (7.191)

et:

equation   (7.192)

et:

equation   (7.193)

et enfin:

equation   (7.194)

qui permettaient donc de faire de l'inférence statistique en fonction de la connaissance ou non de la moyenne ou de la variance vraie sur la totalité ou sur un échantillon de la population. En d'autres termes de savoir dans quelles bornes se situait un moment (moyenne ou variance) en fonction d'un certain niveau de confiance imposé. Nous avions vu que le deuxième intervalle ci-dessus ne peut être que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le troisième.

Nous allons également démontré en détails plus loin les deux intervalles suivants:

equation   (7.195)

et:

equation   (7.196)

Le premier intervalle ci-dessus ne peut être lui aussi que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le deuxième.

Lorsque nous cherchons à savoir si nous pouvons faire confiance à la valeur d'un moment ou d'une variable aléatoire en général avec une certaine confiance, nous parlons de "test d'hypothèse" ou "test d'adéquation" ou encore de "test de conformité".

Les tests d'hypothèses sont destinés à vérifier si un échantillon peut être considéré comme extrait d'une population donnée ou représentatif de cette population, vis-à-vis d'un paramètre comme la moyenne, la variance ou la fréquence observée. Ceci implique que la loi théorique du paramètre est connue au niveau de la population.

Par exemple, si nous souhaitons savoir avec une certaine confiance si une moyenne donnée d'un échantillon de population est réaliste par rapport à la vraie moyenne théorique inconnue, nous utiliserons le "test-Z" qui est simplement:

equation   (7.197)

si la moyenne de toute la population se trouve bien dans les bornes pour la confiance donnée, la moyenne de l'échantillon test de taille n avec l'écart-type de toute la population connue!

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

equation   (7.198)

alors la soustraction (différencier) des moyennes donne:

equation   (7.199)

Donc pour la différence de deux moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

equation   (7.200)

Nous pouvons alors adapter le test-Z sous la forme:

equation   (7.201)

Cette relation est très utile lorsque pour deux échantillons de deux populations de données, nous voulons vérifier s'il existe une différence significative des différences des moyennes théoriques à un niveau de confiance donné et la probabilité associée pour avoir cette différence par exemple donné par:

equation   (7.202)

Donc:

equation   (7.203)

Nous parlons du "test-Z de la moyenne à deux échantillons" et il est beaucoup utilisé dans l'industrie pour vérifier l'égalité de la moyenne de deux populations de mesures.

Et si l'écart-type théorique n'est pas connu, nous utiliserons le"test-T" de Student (pas mal utilisé en pharmaco-économie) démontré plus haut:

equation   (7.204)

Dans la même idée pour l'écart-type, nous utiliserons le "test du khi-deux" aussi déjà démontré plus haut:

equation   (7.205)

Et lorsque nous voulons tester l'égalité de la variance de deux populations nous utilisons le "test-F" de Fisher (démontré plus bas lors de notre étude de l'analyse de la variance):

equation   (7.206)

Le fait que nous obtenions alors l'ensemble des valeurs satisfaisant à ce test borné à droite et (!) à gauche est ce que nous appelons dans le cas général un "test bilatéral" car il comprend le test unilatéral à gauche et unilatéral à droite. Ainsi, tous les tests susmentionnés sont dans une forme bilatérale mais nous pourrions en faire une analyse unilatérale aussi!

Signalons aussi que les tests d'hypothèses sur l'écart-type (variance), la moyenne ou la corrélation sont appelés des "tests paramétriques" à l'inverse des tests non-paramétriques que nous verrons plus loin.

Remarque: Il existe également une autre définition du concept de test paramétrique et non-paramétrique (complétement différente). Mais sur ce site web nous préférerons utiliser celle mentionnée ci-dessus.

Enfin, de nombreux logiciels calculent ce que nous appelons la "p-value" qui est généralement (car c'est le statisticien qui va faire le choix du niveau de qualité de son estimation) le risque limite pour lequel nous passons de l'état d'hypothèse acceptée à l'état refusée.

Pour un test, le 5% de risque est celui de rejeter l'hypothèse alors même qu'elle est vraie. Si le risque est 5% et que la p-value est inférieure, le test échoue (rejet de l'hypothèse). Nous acceptons l'hypothèse si la p-value est plus grande que 5% (0.05). Au fait, plus la p-value est grande, mieux c'est car l'intervalle de confiance est de plus en plus petit. Si l'intervalle de confiance vient à être énorme (très proche de 100%) car la p-value est très petite alors l'analyse n'a plus vraiment de sens physiquement parlant!

Remarque: Nous ne devrions jamais dire que nous "acceptons" une hypothèse ou encore qu'elle est"vraie" ou "fausse" car ces termes sont trop forts. Nous devrions dire si nous "rejetons" ou non l'hypothèse et qu'elle est éventuellement "correcte" ou "non correcte".

Nous allons dans ce qui suit démontrer l'origine du test F de Fisher et par la même occasion nous introduirons deux autres tests qui sont le "test-T homoscédastique" et le "test-T hétéroscédastique".

ANALYSE DE LA VARIANCE (ANOVA a un facteur)

L'objectif de l'analyse de la variance (contrairement à ce que son nom pourrait laisser penser) est une technique statistique permettant de comparer les moyennes de deux populations ou plus (très utilisé dans le pharma ou dans les labos de R&D ou de bancs d'essais). Cette méthode, néanmoins, doit son nom au fait qu'elle utilise des mesures de variance afin de déterminer le caractère significatif, ou non, des différences de moyenne mesurées sur les populations.

Plus précisément, la vraie signification est de savoir si le fait que des moyennes d'échantillons sont (légèrement) différentes peut être attribué au hasard de l'échantillonnage ou provient du fait que facteur de variabilité engendre réellement des échantillons qui sont significativement différents (si nous avons les valeurs de toute la population, nous n'avons rien à faire!).

Pour l'analyse de la variance abrégée "ANOVA à une facteur" (ANalysis Of VAriance) ou "ANAVAR à un facteur" (ANAlyse de la VARiance), dite aussi "ANOVA à une voie", nous allons d'abord rappeler, comme nous l'avons démontré, que la loi de Fisher-Snedecor est donnée par le rapport de deux variables aléatoires indépendantes suivant une loi du khi-deux et divisée par leur degré de liberté tel que:

equation   (7.207)

et nous allons voir maintenant son importance.

Considérons un échantillons aléatoire de taille n, disons equation issu de la loi equation et un échantillon aléatoire de taille m, disons equation issu de la loi equation.

Considérons les estimateurs de maximum de vraisemblance de l'écart-type de la loi Normale traditionnellement notée dans le domaine de l'analyse de la variance par:

equation et equation   (7.208)

Les statistiques ci-dessus sont les statistiques que nous utiliserions pour estimer les variances si les moyennes théoriques equation sont connues. Donc nous pouvons utiliser un résultat démontré plus haut lors de notre étude des intervalles de confiance:

equation   (7.209)

Comme les equation sont indépendantes des equation (hypothèse!), les variables:

equation   (7.210)

sont indépendantes l'une de l'autre.

Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

equation et equation   (7.211)

ainsi que:

equation et equation   (7.212)

Nous avons donc:

equation   (7.213)

Soit:

equation   (7.214)

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne théorique est connue. Puisque la fonction du Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors pour un intervalle de confiance donné le test de la manière suivante:

equation   (7.215)

Dans le cas où les moyennes equation sont inconnues, nous utilisons l'estimateur sans biais de la variance traditionnellement notée dans le domaine de l'analyse de la variance par:

equation et equation   (7.216)

Pour estimer les variances théoriques, nous utilisons le résultat démontré plus haut:

equation et equation   (7.217)

Comme les equation sont indépendantes des equation (hypothèse!), les variables:

equation   (7.218)

sont indépendantes l'une de l'autre. Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

equation et equation   (7.219)

ainsi que:

equation et equation   (7.220)

Nous avons donc:

equation   (7.221)

Soit:

equation   (7.222)

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne empirique est connue. Puisque la fonction du Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors pour un intervalle de confiance donné le test de la manière suivante:

equation   (7.223)

R. A. Fisher (1890-1962) est, comme Karl Pearson, l'un des principaux fondateurs de la théorie moderne de la statistique. Fisher étudia à Cambridge où il obtint en 1912 un diplôme en astronomie. C'est en étudiant la théorie de l'erreur dans les observations astronomiques que Fisher s'intéressa à la statistique. Fisher est l'inventeur de la branche de la statistique appelée l'analyse de la variance.

Au début du 20ème siècle, R. Fischer développe donc la méthodologie des plans d'expérience. Pour valider l'utilité d'un facteur, il met au point un test permettant d'assurer que des échantillons différents sont de natures différentes. Ce test est basé sur l'analyse de la variance (des échantillons), et nommé ANOVA (analyse normalisée de la variance).

Prenons k échantillons de n valeurs aléatoires chacun (appelé "facteur explicatif" dans l'analyse de la variance). Chacune des valeurs étant considérée comme une observation ou une mesure de quelque chose ou sur la base de quelque chose (un lieu différent, ou un objet différent... bref: un seul et unique facteur de variabilité entre les échatillons!). Nous aurons donc un nombre total de N d'observations (mesures) donnée par:

equation   (7.224)

si chacun des échantillons a un nombre identique de valeurs tel que equation (nous parlons alors de "plan équilibré" à k niveaux.

Remarque: Si nous avons plusieurs facteurs de variabilité (par exemple: chaque lieu comparé à lui-même plusieurs labos), nous parlerons alors d'ANOVA multifactorielle. Dès lors, s'il n'y a que deux facteurs de variabilité, nous parlons d'ANOVA à deux facteurs.

Nous considérerons que chacun des k échantillons est issu (suit) d'une variable aléatoire suivant une loi Normale.

En termes de test, nous voulons tester si les moyennes des k échantillons sont égales sous l'hypothèse que leurs variances sont égales. Ce que nous écrivons sous forme d'hypothèse de la manière suivante:

equation   (7.225)

Autrement dit: les échantillons sont représentatifs d'une même population (d'une même loi statistique). C'est-à-dire que les variations constatées entre les valeurs des différents échantillons sont dues essentiellement au hasard. Pour cela nous étudions la variabilité des résultats dans les échantillons et entre les échantillons.

Nous noterons i l'indice d'échantillon (de 1 à k) et j l'indice de l'observation (de 1 à n). Donc equation sera la valeur de la j-ème observation de l'échantillon de données numéro i.

Selon l'hypothèse susmentionnée, nous avons:

equation   (7.226)

Nous noterons par equation la moyenne empirique/estimée (arithmétique) de l'échantillon i :

equation   (7.227)

et equationla moyenne empirique/estimée des N valeurs (soit la moyenne des equation) donnée donc par:

equation   (7.228)

En utilisant  les propriétés de l'espérance et de la variance déjà démontrées plus haut nous savons que:

equation et equation   (7.229)

avec equation qui est la moyenne des moyennes vraies equation:

equation   (7.230)

Maintenant, introduisons la "variance totale" comme étant la variance estimée sans biais en considérant l'ensemble des N observations comme un seul échantillon:

equation   (7.231)

où rappelons que le terme au numérateur est appelé "variation totale".

La variance entre échantillons (c'est-à-dire entre les moyennes des échantillons) est l'estimateur de la variance des moyennes des échantillons:

equation   (7.232)

Comme nous avons démontré que si toutes les variables sont identiquement distribuées (même variance) la variance des individus vaut n fois celle de la moyenne:

equation   (7.233)

alors la variance des observations (variables aléatoires dans un échantillon) est donnée par :

equation   (7.234)

Nous avons donc ci-dessus l'hypothèse de l'égalité des variances qui est exprimée sous forme mathématique pour les développements à suivre.

La variance résiduelle est l'effet des facteurs dits non contrôlés. C'est par définition la moyenne des variances des échantillons.

equation   (7.235)

Au final, ces indicateurs sont parfois résumés sous la forme suivante:

equation   (7.236)

Remarquons que si les échantillons n'ont pas la même taille (ce qui est rare), nous avons alors:

equation   (7.237)

Remarques:

R1. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SST signifiant en anglais "Sum of Squares Total" ou plus rarement TSS pour "Total Sum of Square".

R2. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SSB signifiant en anglais "Sum of Squares Between (samples)" ou plus rarement SSk pour "Sum of Squared Beetween treatments".

R3. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SSW signifiant en anglais "Sum of Squares Within (samples)" ou plus rarement SSE pour "Sum of Squared due to Errors".

Indiquons que nous voyons souvent dans la littérature (nous réutiliserons un peu plus loin cette notation):

equation   (7.238)

avec donc l'estimateur sans biais de la variance des observations:

equation   (7.239)

Avant d'aller plus loin, arrêtons-nous sur la variance résiduelle. Nous avons donc pour des échantillons qui ne sont pas de même taille:

equation   (7.240)

Ouvrons maintenant une petite parenthèse... Prenons le cas particulier deux échantillons seulement. Nous pouvons alors écrire:

equation   (7.241)

Soit en introduisant l'estimateur de maximum de vraisemblance de la variance:

equation   (7.242)

Nous pouvons d'ailleurs observer que dans le cas particulier où:

equation   (7.243)

alors:

equation   (7.244)

Donc:

equation   (7.245)

Supposons maintenant que nous souhaitions comparer avec un certain intervalle de confiance la moyenne de deux populations ayant une variance différente pour savoir si elles sont de natures différentes ou non.

Nous connaissons pour le moment deux tests pour vérifier les moyennes. Le test-Z et le test-T. Comme dans l'industrie il est rare que nous ayons le temps de prendre des grands échantillons, concentrons-nous sur le deuxième que nous avions démontré plus haut:

equation   (7.246)

Et rappelons aussi que:

equation   (7.247)

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

equation   (7.248)

alors la soustraction (différencier) des moyennes donne:

equation   (7.249)

Donc pour la différence de deux  moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

equation   (7.250)

Et maintenant l'idée est de prendre l'approximation (sous l'hypothèse que les variances sont égales):

equation   (7.251)

Cette approximation est appelée "hypothèse homoscédastique".

Nous avons alors l'intervalle de confiance:

equation   (7.252)

Comme l'idée est de tester l'égalité des moyennes théoriques à partir des estimateurs connus alors:

equation   (7.253)

avec:

equation   (7.254)

Dans la plupart des logiciels disponibles sur le marché, le résultat est uniquement donné à partir du fait que le equation que nous avons est compris dans le equation correspondant à l'intervalle de confiance donné rappelons-le par:

equation   (7.255)

dans le cas de l'hypothèse homoscédastique (égalité des variances).

Remarque: Cette dernière relation est appelée "independent two-sample t-test", ou "t-test homoscédastique", avec taille des échantillons différentes et variances égales. Souvent dans la littérature, les deux moyennes théoriques sont égales lors de la comparaison. Il s'en suit que nous avons alors:

equation   (7.256)

Sinon, dans le cas plus général de l'hypothèse hétéroscédasticité (non égalité des variances), nous écrivons explicitement :

equation   (7.257)

Donc:

equation   (7.258)

Remarque: La relation antéprécédente est appelée "independent two-sample t-test", ou "t-test hétéroscédastique". Si la taille des échantillons est égale et que les variances le sont aussi et que nous supposons les deux moyennes théoriques sont égales lors de la comparaison, il s'en suit que nous avons alors:

equation   (7.259)

Bref, fermons cette parenthèse et revenons à nos moutons... Nous en étions donc au tableau suivant:

equation   (7.260)

où nous avons donc le cas d'échantillons de même taille:

equation   (7.261)

Ainsi que la variance totale qui est la somme de la variance des moyennes (interclasses) et de la variance résiduelle (intra-classes) et ce que les échantillons soient de même taille ou non:

equation   (7.262)

Effectivement:

equation   (7.263)

Or, nous avons:

equation   (7.264)

car:

equation   (7.265)

Donc:

equation   (7.266)

Sous les hypothèses mentionnées au début (égalité des moyennes entre échantillons) nous avons:

equation   (7.267)

ce qui découle immédiatement de la démonstration que nous avions fait lors de notre étude de l'inférence statistique où nous avions obtenu:

equation   (7.268)

Ce que nous souhaitons faire c'est voir s'il y a une différence entre la variance des moyennes (interclasses) et de la variance résiduelle (intra-classes). Pour comparer deux variances lorsque les moyennes vraies sont inconnues nous avons vu que le mieux était d'utiliser le test de Fisher.

De même, nous avons:

equation   (7.269)

Effectivement, d'abord nous avons:

equation   (7.270)

Donc de par la linéarité de la loi du Khi-deux:

equation   (7.271)

puisque:

equation   (7.272)

et parce que:

equation   (7.273)

Donc pour résumer nous avons:

equation et equation   (7.274)

et puisque equation, nous avons alors:

equation   (7.275)

C'est maintenant qu'intervient la loi de Fisher dans l'hypothèse où les variances sont égales! Puisque:

equation et equation   (7.276)

Or, nous avons démontré dans notre étude de la loi de Fisher un peu plus haut que:

equation   (7.277)

où dans notre cas d'étude:

equation   (7.278)

Indiquons encore que la relation précédente:

equation   (7.279)

et souvent indiquée dans la littérature sous la formation suivante:

equation   (7.280)

où MSK est appelé "Mean Square for treatments" et MSE "Mean Square for Error".

Remarque: S'il y a seulement deux populations, il faut bien comprendre qu'à ce moment l'utilisation du test-T de Student suffit amplement.

Tous les calculs que nous avons fait sont très souvent représentés dans les logiciels sous la forme d'une table standardisée donc voici la forme et le contenu (c'est ainsi que le présente MS Excel ou Minitab par exemple):

Source

Somme des carrés

ddl du equation

Moyenne des carrés

F

Valeur critique F

Inter-Classe

equation

k-1

equation

equation

equation

Intra-Classe

equation

N-k

equation

   

Total

equation

N-1

     

Tableau: 7.1  - Terminologie et paramètres traditionnels d'une ANOVA à un facteur

ainsi, pour que l'hypothèse soit acceptée, il faut que la valeur de:

equation   (7.281)

soit plus petite ou égale à au centile de la même loi F avec une probabilité cumulée à l'intervalle de confiance imposé.

TEST D'AJUSTEMENT DU KHI-DEUX

Nous allons étudier ici notre premier test d'hypothèse non-paramétrique, un des plus connus certainement et des plus simples.

Supposons qu'une variable statistique suive une loi de probabilité P. Si nous tirons un échantillon dans la population correspondant à cette loi, la distribution observée s'écartera toujours plus ou moins de la distribution théorique, compte tenu des fluctuations d'échantillonnage.

Généralement, nous ne connaissons ni la forme de la loi P, ni la valeur de ses paramètres. C'est la nature du phénomène étudié et l'analyse de la distribution observée qui permettent de choisir une loi susceptible de convenir et d'en estimer les paramètres.

Les écarts entre la loi théorique et la distribution observée peuvent être attribués soit aux fluctuations d'échantillonnage, soit au fait que le phénomène ne suit pas, en réalité, la loi supposée.

En gros, si les écarts sont suffisamment faibles, nous admettrons qu'ils sont imputables aux fluctuations aléatoires et nous accepterons la loi retenue ; au contraire, s'ils sont trop élevés, nous en conclurons qu'ils ne peuvent pas être expliqués par les seules fluctuations et que le phénomène ne suit pas la loi retenue.

Pour évaluer ces écarts et pouvoir prendre une décision, il faut :

1. Définir la mesure de la distance entre distribution empirique et distribution théorique résultant de la loi retenue.

2. Déterminer la loi de probabilité suivie par cette variable aléatoire donnant la distance

3. Énoncer une règle de décision permettant de dire, d'après la distribution observée, si la loi retenue est acceptable ou non.

Nous aurons pour cela besoin du théorème central limite et deuxièmement rappelons que lors lors de la construction de la loi Normale, nous avons montré que la variable:

equation   (7.282)

suivait une loi Normale centrée réduite lorsque n tendait vers l'infini (condition de Laplace).

En pratique, l'approximation est tout à fait acceptable... dans certaines entreprises... lorsque  equation  et equation soit (c'était un des termes qui devait tendre vers zéro quand nous avions fait la démonstration):

equation   (7.283)

Par exemple dans les deux figures ci-dessous où nous avons représenté les lois binomiales approchées par les lois Normales associées, nous avons à gauche equation et à droite equation:

equation
  (7.284)

Rappelons enfin, que nous avons démontré que le sommes des carrées de n variables aléatoires normales centrées réduites linéairement indépendantes suit une loi du khi-deux à n degrés de liberté noté equation.

Considérons maintenant  une variable aléatoire X suivant une fonction de distribution théorique (continue ou discrète) P et tirons un échantillon de taille n dans la population correspondant à cette loi P.

Les n observations seront réparties suivant k modalités (classes de valeurs) C1, C2, ..., Ck, dont les probabilités p1, p2, ..., pk sont déterminées par la fonction de distribution P (se référer à l'exemple de la droite de Henry).

Pour chaque modalité Ci, l'effectif empirique est lui une variable aléatoire ki de loi binomiale:

equation   (7.285)

Cet effectif ki correspond en effet au nombre de succès "résultat égal à la modalité Ci" de probabilité pi, obtenus au cours des n tirages d'un lot expérimental (et non dans la population de la loi théorique comme avant).

Nous avons démontré lors de l'étude de la loi binomiale que son espérance:

equation   (7.286)

représente l'effectif théorique de la modalité Ci et sa variance est:

equation   (7.287)

car pi est relativement petite, ce qui donne  equation qui est assez proche de 1. Son écart-type est donc:

equation   (7.288)

Dans ces conditions, pourvu que la modalité Ci ait un effectif théorique npi au moins égal à 5, l'écart réduit:

equation   (7.289)

entre effectif empirique et effectif théorique peut être approximativement considéré comme une variable normale centrée réduite comme nous l'avons vu plus haut.

Nous définissons alors la variable:

equation   (7.290)

equationest souvent nommée "fréquence expérimentale" et equation "fréquence théorique".

Signalons que cette variable est aussi parfois (un peu malheureusement) notée:

equation    (7.291)

ou le plus souvent:

equation   (7.292)

Cette variable D, somme des carrés des variables Ei, nous donne une mesure de ce que nous pourrions appeler une "distance" ou  "différence" ou "écart" entre distribution empirique et distribution théorique. Notons bien cependant qu'il ne s'agit cependant pas d'une distance au sens mathématique habituel (topologique).

Rappelons que D peut donc aussi s'écrire:

equation   (7.293)

D est donc la somme des carrés de N variables aléatoires normales centrées réduites liées par la seule relation linéaire:

equation   (7.294)

n est donc la taille de l'échantillon. Donc D suit une loi khi-deux mais à N-1 degrés de liberté, donc un degré de moins à cause de l'unique relation linéaire qui les lie! Effectivement, rappelons que le degré de liberté indique le nombre de variables indépendantes dans la somme et non pas juste le nombre de termes sommés.

Donc:

equation   (7.295)

Nous appelons ce test un "test non-paramétrique du khi-2" ou "test du khi-2 de Pearson" ou encore "test d'ajustement du khi-2" ou encore "test de Karl Pearson".

Ensuite, l'habitude est de déterminer la valeur de la loi du khi-deux à N-1 degrés de liberté ayant 5% de probabilité d'être dépassée. Donc dans l'hypothèse où le phénomène étudié suit la loi théorique P, il y a donc 95% de probabilité cumulée que la variable D prenne une valeur inférieur à celle donnée par la loi du khi-deux.

Si la valeur de la loi du khi-deux obtenu à partir de l'échantillon prélevé est inférieure à celle correspondant aux 95% de probabilité cumulée, nous acceptons l'hypothèse selon laquelle le phénomène suit la loi P.

Remarques:

R1.  Le fait que l'hypothèse de la loi P soit acceptée ne signifie pas pour autant que cette hypothèse soit vraie, mais simplement que les informations données par l'échantillon ne permettent pas de la rejeter. De même, le fait que l'hypothèse de la loi P soit rejetée ne signifie pas nécessairement que cette hypothèse soit fausse mais que les informations données par l'échantillon conduisent plutôt à conclure à l'inadéquation d'une telle loi.

R2. Pour que la variable D suive une loi du khi-deux, il est nécessaire que les effectifs théoriques npi des différentes modalités Ci soient au moins égaux à 5, que l'échantillon soit tiré au hasard (pas d'autocorrélation) et qu'aucune des probabilités pi soit trop proche de zéro.

CALCULS D'ERREURS/INCERTITUDES

Il est impossible de connaître (mesurer) la valeur exacte d'une grandeur physique expérimentalement, il est très important donc d'en déterminer l'incertitude.

Nous appelons bien évidemment "erreur", la différence entre la valeur mesurée et la valeur exacte. Cependant, comme nous ignorons la valeur exacte, nous ne pouvons pas connaître l'erreur commise quand même.... Le résultat est donc toujours incertain. C'est la raison pour laquelle nous parlons des "incertitudes de mesure".

Nous distinguons deux types d'incertitudes :

1. Les "erreurs systématiques" : elles affectent le résultat constamment et dans le même sens (erreurs des appareils de mesures, limites de précision, etc.). Il faut alors éliminer, ou corriger le résultat, si possible !

2. Les "erreurs accidentelles" (statistiques) : il faut alors répéter les mesures, calculer la moyenne et évaluer l'incertitude en utilisant les outils de statistique.

Le deuxième type d'erreurs faits un très gros usage de tous les outils statistiques que nous avons présentés jusqu'à maintenant. Nous ne reviendrons donc pas dessus et nous concentrerons alors uniquement sur quelques nouveaux concepts.

INCERTITUDES ABSOLUES ET RELATIVES

Si la vraie valeur d'une grandeur est x (connue théoriquement) et la valeur mesurée est equation, equation est "l'incertitude absolue" (l'incertitude dû aux appareils de mesure) telle que :

equation   (7.296)

Le résultat s'écrit alors :

equation   (7.297)

"L'incertitude relative" est quant à elle définie par :

equation   (7.298)

L'incertitude absolue permet de savoir l'approximation du dernier chiffre significatif de celle-ci. Par contre, lorsque nous désirons comparer deux mesures ayant des incertitudes absolues afin de déceler lequel a la plus grande marge d'erreur, nous calculons l'incertitude relative de ce nombre en divisant l'incertitude absolue par le nombre, et transformé en pourcentage.

En d'autres termes, l'incertitude relative permet d'avoir une idée de la précision de la mesure en %. Si nous faisons une mesure avec une incertitude absolue de 1 [mm], nous ne saurons pas si c'est une bonne mesure ou non. Ça dépend si nous avons mesuré la taille d'une pièce de monnaie, de notre voisin, de la distance Paris-Marseille ou de la distance Terre-Lune. Bref, ça dépend de l'incertitude relative (c'est-à-dire du rapport de l'incertitude absolue sur la mesure).

ERREURS STATISTIQUES

Dans la plupart des mesures, nous pouvons estimer l'erreur due à des phénomènes aléatoires par une série de n mesures equation :

Comme nous l'avons vu plus haut, la valeur moyenne arithmétique sera alors :

equation   (7.299)

et l'écart moyen (estimateur biaisé démontré plus haut) :

equation   (7.300)

et l'écart quadratique moyen ou écart-type (estimateur sans biais) :

equation   (7.301)

et nous avions démontré que l'écart-type de la moyenne était donné par :

equation   (7.302)

et comme nous l'avons vu, après un grand nombre de mesures indépendantes, la distribution des erreurs sur une mesure suit une gaussienne tel que nous puissions écrire :

equation   (7.303)

bref nous pouvons réutiliser tous les outils statistiques vus jusqu'à maintenant.

PROPAGATION DES ERREURS

Soit une mesure equation et equation une fonction de x. Quelle est l'incertitude sur y ?

Lorsque equation est petit, f(x) est remplacé au voisinage de x par sa tangente (il s'agit simplement de la dérivée bien sûr) :

equation   (7.304)

mais si y dépend de plusieurs grandeurs x,z,t mesurées avec les incertitudes equation :

equation   (7.305)

alors l'erreur maximale possible est alors la différentielle totale exacte (cf. chapitre de Calcul Différentiel Et Intégral) :

equation   (7.306)

Ce qui conduit à :

equation   (7.307)

Il apparaît ainsi clairement qu'une opération mathématique ne peut améliorer l'incertitude sur les données.

Remarque: Le résultat d'une multiplication, d'une division, d'une soustraction ou d'une addition est arrondi à autant de chiffres significatifs que la donnée qui en comporte le moins.

CHIFFRES SIGNIFICATIFS

Dans les petites écoles (et aussi les plus grande parfois), il est demandé de transformer une mesure exprimée en une certaine unité en une autre unité.

Par exemple, en prenant les tables, nous pouvons avoir le type de conversion suivante :

equation   (7.308)

Vient alors la question suivante (que l'élève peut avoir oublié...). Au départ d'une mesure dont la précision est de l'ordre de 1 [lb] (donc de l'ordre de 0.5 [kg]), une simple conversion d'unité pourrait-elle amener à une précision au 1/10 [mg] près ?

De cet exemple il faut donc retenir qu'une marge d'incertitude est associée à toute valeur mesurée et à toute valeur calculée à partir de valeurs mesurées.

Dans les sciences exactes, tout raisonnement, toute analyse doit prendre cette incertitude en compte.

Mais pourquoi des chiffres sont-ils significatifs et d'autres pas alors ? Parce qu'en sciences, nous ne rapportons que ce qui a objectivement été observé (principe d'objectivité). En conséquence, nous limitons l'écriture d'un nombre aux chiffres raisonnablement fiables en dépit de l'incertitude : les chiffres significatifs. La précision que des chiffres supplémentaires sembleraient apporter est alors illusoire.

Il faut alors savoir arrondir selon des règles et conventions:

- Lorsque le chiffre de rang le plus élevé qu'on laisse tomber est supérieur à 5, le chiffre précédent est augmenté de 1 (exemple : 12.66 s'arrondit à 12.7). Dans MS Excel:

=ROUND(12.66;1)=12.7

- Lorsque le chiffre de rang le plus élevé qu'on laisse tomber est inférieur à 5, le chiffre précédent reste inchangé (exemple 12.64 s'arrondit à 12.6). Dans MS Excel:

=ROUND(12.64;1)=12.6

- Lorsque le chiffre de rang le plus élevé qu'on laisse tomber est égal à 5, si un des chiffres qui le suivent n'est pas nul, le chiffre précédent est augmenter de 1 (exemple : 12.6502 s'arrondit à 12.7). Dans MS Excel:

=ROUND(12.6502;1)=12.7

- Si le chiffre de rang le plus élevé que nous laissons tomber est un 5 terminal (qui n'est suivi d'aucun chiffre) ou qui n'est suivi que de zéros, nous augmentons de 1 le dernier chiffre du nombre arrondi s'il est impair, sinon nous le laissons inchangé (exemples : 12.75 s'arrondit à 12.8 et 12.65 à 12.6). Dans ce dernier cas, le dernier chiffre du nombre arrondi est toujours un chiffre pair. Les tableurs ne respectent pas vraiment cette dernière règle, effectivement avec MS Excel nous avons:

=ROUND(12.75;1)=12.8
=ROUND(12.65;1)=12.7

Au fait dans la pratique ces règles sont peu utilisées car les logiciels (tableurs) n'intègrent pas des fonctions adaptées. Il est alors d'usage d'arrondir simplement à la valeur de la décimale la plus proche.

Les chiffres significatifs d'une valeur comprennent tous ses chiffres déterminés avec certitude ainsi que le premier chiffre sur lequel porte l'incertitude (ce dernier significatif occupe le même rang que l'ordre de grandeur de l'incertitude).

Souvent, les sources de données ne mentionnent pas d'intervalle de confiance (c'est-à-dire une indication +/-). Par exemple, lorsque nous écrivons equation nous considérons conventionnellement que l'incertitude est du même ordre de grandeur que le rang du dernier chiffre significatif (soit le chiffre incertain).

En fait, seul le rang décimal de l'incertitude est implicite : sa marge réelle n'est pas précisée.

Haut de page
STATISTIQUES (1/2) CALCUL ALGEBRIQUE
 
   


Ce travail est dans le domaine public
W3C - HTMLW3C - CSS
2002-2010 Sciences.ch