post-itAjouter un post-it
loadingPage en cours de chargement
    ACCUEIL | TÉLÉCHARGER | ANNONCES | CHAT |FORUM | WIKI | LIVRE D'OR | PARTENAIRES | CONTACT | BLOG | A PROPOS
 
  Rechercher
  separation
  Introduction
  Arithmétique
  Algèbre
  Analyse
  Géométrie
  Mécanique
  Électrodynamique
  Atomistique
  Cosmologie
  Chimie
  Informatique Théorique
  Maths. Sociales
  Ingénierie
  separation
  Biographies
  Références
  Liens
  separation
  Humour
  Serveur d'exercices
  separation
  Parrains
10 connectés
News News :: Erreur Erreur :: Statistiques Statistiques :: ClearType ClearType :: Imprimer Imprimer :: Bookmark and Share

Arithmétique

THÉORIE DE LA DÉMONSTRATION | NOMBRES | OPÉRATEURS ARITHMÉTIQUES |
THÉORIE DES NOMBRES | THÉORIE DES ENSEMBLES | PROBABILITÉS | STATISTIQUES

7. STATISTIQUES (2/3)

Dernière mise-à-jour de ce chapitre: 21.01.2012 21:24
Version: 2.7 Revision 21 | Rédacteur: Vincent Isoz  | Avancement: ~90%
vues depuis le 01.01.2012: 381

Table des matières LISTE DES SUJETS TRAITÉS SUR CETTE PAGE | MediaWiki DISCUTER DE CETTE PAGE

ESTIMATEURS DE VRAISEMBLANCE

Ce qui va suivre est d'une extrême importance en statistiques et est utilisé énormément en pratique. Il convient donc d'y accorder une attention toute particulière!

Nous supposons que nous disposons d'observations equation qui sont des réalisations de variables aléatoires non biaisées (dans le sens qu'elles sont choisies aléatoirement parmi un lot) indépendantes equation de loi de probabilité inconnue mais identique.

Nous allons chercher à estimer cette loi de probabilité P inconnue à partir des observations equation.

Supposons que nous procédons par tâtonnements pour estimer la loi de probabilité P inconnue. Une manière de procéder est de se demander si les observations equation avaient une probabilité élevée ou non de sortir avec cette loi de probabilité arbitraire P

Nous devons pour cela calculer la probabilité conjointe qu'avaient les observations equation de sortir avec equation. Cette probabilité vaut (cf. chapitre de Probabilités):

equation   (7.1)

en notant P la loi de probabilité supposée associée à equation. Il faut avouer qu'il serait alors particulièrement maladroit de choisir une loi de probabilité (avec ses paramètres!) qui minimise cette quantité...

Au contraire, nous allons chercher la probabilité equation qui maximise equation, c'est-à-dire qui rende les observations equation le plus vraisemblable possible.

Nous sommes donc amenés à chercher le (ou les) paramètre(s) equation qui maximise(nt) la quantité:

equation   (7.2)

Cette quantité L porte le nom de "vraisemblance". C'est une fonction du ou des paramètres equation et des observations equation.

La ou les valeurs du paramètre equation qui maximisent la vraisemblance equation sont appelées "estimateurs du maximum de vraisemblance" (estimateur MV).

Faisons quand même trois petits exemples (très classiques, utiles et importants dans l'industrie) avec dans l'ordre d'importance (donc pas forcément dans l'ordre de facilité...) la fonction de distribution de Gauss-Laplace (Normale), la fonction de distribution de Poisson et finalement Binomiale (et in extenso Géométrique).

Remarque: Ces trois exemples sont importants car utilisés dans les SPC (maîtrise statistiques de processus) dans différentes multinationales à travers le monde (cf. chapitre de Génie Industriel).

ESTIMATEURS DE LA LOI NORMALE

Soit equation un n-échantillon de variables aléatoires identiquement distribuées supposées suivre une loi de Gauss-Laplace (loi Normale) de paramètres equation et equation .

Nous recherchons quelles sont les valeurs des estimateurs du maximum de vraisemblance equation qui maximisent la vraisemblance equation de la loi Normale ?

Remarque: Il va de soi que les estimateurs du maximum de vraisemblance equation sont ici:

equation   (7.3)

Nous avons démontré plus haut que la densité d'une variable aléatoire gaussienne était donnée par:

equation   (7.4)

La vraisemblance est alors donnée par:

equation   (7.5)

Maximiser une fonction ou maximiser son logarithme est équivalent donc la "log-vraisemblance" sera:

equation   (7.6)

Pour déterminer les deux estimateurs de la loi Normale, fixons d'abord l'écart-type. Pour cela, dérivons  equation par rapport à equation et regardons pour quelle valeur de la moyenne la fonction s'annule.

Il nous reste après simplification le terme suivant qui est égal à zéro:

equation   (7.7)

Ainsi, l'estimateur du maximum de vraisemblance de la moyenne (espérance) de la loi Normale est donc après réarrangement:

equation   (7.8)

et nous voyons qu'il s'agit simplement de la moyenne arithmétique (ou appelée aussi "moyenne empirique").

Fixons maintenant la moyenne. L'annulation de la dérivée de equation en equation conduit à:

equation   (7.9)

Ce qui nous permet d'écrire l'estimateur du maximum de vraisemblance pour l'écart-type (la variance lorsque la moyenne est connue selon la loi de distribution supposée elle aussi connue!):

equation   (7.10)

que certains appellent aussi "écart-type de Pearson"...

Cependant, nous n'avons pas encore défini ce qu'était un bon estimateur ! Ce que nous entendons par là:

- Si l'espérance d'un estimateur est égale à elle-même, nous disons que cet estimateur est "sans biais" et c'est bien évidemment ce que nous cherchons!

- Si l'espérance d'un estimateur n'est pas égale à elle-même, nous disons alors que cet estimateur est "biaisé" et c'est forcément moins bien...

Dans l'exemple précédent, la moyenne est donc non biaisée (trivial car la moyenne de la moyenne arithmétique est égale à elle-même). Mais qu'en est-il de la variance (in extenso de l'écart-type) ?

Un petit calcul simple par linéarité de l'espérance (puisque les variables aléatoires sont identiquement distribuées) va nous donner la réponse dans le cas où la moyenne théorique est approchée comme dans la pratique (industrie) par l'estimateur de la moyenne (cas le plus fréquent).

Nous avons donc le calcul de l'espérance de la "variance empirique":

equation   (7.11)

Or, comme les variables sont équidistribuées:

equation   (7.12)

Et nous avons (relation de Huyghens):

equation    (7.13)

ainsi que:

equation   (7.14)

où la deuxième relation ne peut s'écrire que parce que nous utilisons l'estimateur du maximum de vraisemblance de la moyenne (moyenne empirique). D'où:

equation   (7.15)

et comme:

equation et equation   (7.16)

Nous avons finalement:

equation   (7.17)

nous avons donc un biais de -1 fois l'erreur-standard:

equation   (7.18)

nous disons alors que cet estimateur à un biais négatif (il sous-estime la vraie valeur!).

Nous noterons également que l'estimateur tend vers un estimateur sans biais (E.S.B.) lorsque le nombre d'échantillons tend vers l'infini equation. Nous disons alors que nous avons un "estimateur asymptotiquement non biaisé".

Il est important de prendre note que nous avons démontré que la variance empirique tend vers la variance théorique quand n tend vers l'infini et ce... que les données suivent une loi Normale ou non!

Remarque: Un estimateur est aussi dit "estimateur consistant" s'il converge en probabilité, lorsque equation, vers la vraie valeur du paramètre.

De par les propriétés de l'espérance, nous avons alors:

equation   (7.19)

il vient alors:

equation   (7.20)

que certains appellent aussi "écart-type standard"...

Nous avons donc finalement les deux résultats importants suivants:

1. "L'estimateur du maximum de vraisemblance biaisé" ou appelé également "écart-type empirique" ou encore "écart-type échantillonnal" ou encore "écart-type de Pearson" ... et donc donné par:

equation  (7.21)

lorsque equation.

2. "L'estimateur du maximum de vraisemblance non biaisé" ou appelé également "écart-type standard":

equation   (7.22)

deux relations que nous retrouvons souvent dans les tables et dans de nombreux logiciels et que nous utiliserons plus bas dans les développements des intervalles de confiance et des tests d'hypothèses!

Par exemple, dans MS Excel l'estimateur biaisé est donné par la fonction ECARTYPEP( ) et le non biaisé par ECARTTYPE( ).

Au total, cela nous fait donc trois estimateurs pour la même quantité!! Comme dans l'écrasante majorité des cas de l'industrie la moyenne théorique n'est pas connue, nous utilisons le plus souvent les deux dernières relations encadrées ci-dessus. Maintenant, c'est là que c'est le plus vicieux: lorsque nous calculons le biais des deux estimateurs, le premier est biaisé, le second ne l'est pas. Donc nous aurions tendance à n'utiliser que le second. Que nenni! Car nous pourrions aussi parler de la variance et de la précision d'un estimateur, qui sont aussi des critères importants pour juger de la qualité d'un estimateur par rapport à un autre. Si nous faisions le calcul de la variance des deux estimateurs, alors le premier, qui est biaisé, a une variance plus petite que le second qui est sans biais! Tout ça pour dire que le critère du biais n'est pas (et de loin) le seul à étudier pour juger de la qualité d'un estimateur.

Enfin, il est important de se rappeler que le facteur -1 du dénominateur de l'estimateur du maximum de vraisemblance non biaisé provient du fait qu'il fallait corriger l'espérance de l'estimateur biaisé à la base minoré de une fois l'erreur-standard!

In extenso, il est possible de démontrer (mais je n'ai jamais réussi...) que si la variable aléatoire suit une loi Normale (dont nous cherchons l'expression de l'estimateur non biaisé) et est la somme de k variables aléatoires linéairement indépendantes alors nous avons:

equation   (7.23)

ESTIMATEURS DE LA LOI DE POISSON

En utilisant la même méthode que pour la loi Normale (Gauss-Laplace), nous allons donc rechercher les estimateurs du maximum de vraisemblance de la loi de Poisson qui rappelons-le, est définie par:

equation   (7.24)

Dès lors, la vraisemblance est donnée par:

equation   (7.25)

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.26)

Nous cherchons maintenant à la maximiser:

equation   (7.27)

et obtenons donc son unique estimateur du maximum de vraisemblance qui sera:

equation   (7.28)

Il est tout à fait normal de retrouver dans cet exemple didactique la moyenne empirique, car c'est le meilleur estimateur possible pour le paramètre de la loi de Poisson (qui représente aussi l'espérance d'une loi de Poisson).

Sachant que l'écart-type de la distribution particulière (voir plus haut) n'est que la racine carrée de la moyenne, nous avons alors pour l'écart-type du maximum de vraisemblance biaisé:

equation   (7.29)

Remarque: Nous montrons de la même manière des résultats identiques pour la loi exponentielle très utilisée en maintenance préventive et fiabilité!

ESTIMATEUR DE LA LOI BINOMIALE (ET GÉOMÉTRIQUE)

En utilisant la même méthode que pour la loi Normale (Gauss-Laplace) et la loi de Poisson, nous allons donc rechercher l'estimateur du maximum de vraisemblance de la loi Binomiale qui rappelons-le, est définie par:

equation   (7.30)

Dès lors, la vraisemblance est donnée par:

equation   (7.31)

Il convient de se rappeler que le facteur qui suit le terme combinatoire exprime déjà les variables successives selon ce que nous avons vu lors de notre étude de la fonction de distribution de Bernoulli et de la fonction binomiale. D'où la disparition du produit dans la dernière égalité précédente.

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.32)

Nous cherchons maintenant à la maximiser:

equation   (7.33)

Le lecteur au remarque que le coefficient biniomial a disparu. Dès lors, nous en déduisons immédiatement que l'estimateur de la loi binomiale sera le même que celui de la loi géométrique.

Ce qui donne:

equation   (7.34)

d'où nous tirons l'estimateur du maximum de vraisemblance biaisé qui sera:

equation   (7.35)

Ce résultat est assez intuitif si l'on considère l'exemple classique d'une pièce de monnaie qui a une chance sur deux de tomber sur une de ces faces. La probabilité p étant le nombre de fois k où une face donnée a été observée sur le nombre d'essais total (toutes faces confondues).

Remarque: Dans la pratique, il n'est pas aussi simple d'appliquer ces estimateurs! Il faut bien réfléchir lesquels sont les plus adaptés à une expérience donnée et idéalement calculer également l'erreur quadratique moyenne (erreur standard) de chacun des estimateurs de la moyenne (comme nous l'avons déjà fait pour la moyenne empirique plus tôt). Bref c'est un long travail de réflexion.

ESTIMATEURS DE LA LOI DE WEIBULL

Nous avons vu dans le chapitre de Génie Industriel une étude très détaillée de la loi de Weibull à trois paramètres avec son écart-type et son espérance car nous avions précisé qu'elle était assez utilisée dans le domaine de l'ingénierie de la fiabilité.

Malheureusement les trois paramètres de cette loi  nous sont en pratique inconnus. A l'aide des estimateurs nous pouvons cependant déterminer l'expression de deux des trois en supposant equation comme étant nul. Cela nous donne donc la loi de Weibull dite "loi de Weibull à deux paramètres" suivante:

equation   (7.36)

avec pour rappel equation et equation.

Dès lors la vraisemblance est donnée par:

equation   (7.37)

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.38)

Cherchons maintenant à maximiser cela en se rappelant que (cf. chapitre de Calcul Différentiel et Intégral):

equation et equation   (7.39)

d'où:

equation   (7.40)

Et nous avons pour le deuxième paramètre:

equation   (7.41)

d'où:

equation   (7.42)

Finalement avec les écritures correctes (et dans l'ordre de résolution dans la pratique):

equation et equation   (7.43)  

La résolution de ces équations implique de lourds calculs et on ne peut rien en tirer dans les tableaux classiques comme MS Excel ou Calc de Open Office.

On prend alors une approche différente en écrivant notre loi de Weibull à deux paramètres ainsi:

equation   (7.44)

avec pour rappel equation et equation.

Dès lors la vraisemblance est donnée par:

equation   (7.45)

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.46)

Cherchons maintenant à maximiser cela en se rappelant que (cf. chapitre de Calcul Différentiel et Intégral):

equation et equation   (7.47)

d'où:

equation   (7.48)

Et nous avons pour le deuxième paramètre:

equation   (7.49)

Il est alors immédiat que:

equation   (7.50)

injecté dans la relation:

equation   (7.51)

Il vient:

equation   (7.52)

en simplifiant:

equation   (7.53)

La résolution des deux équations (dans l'ordre de haut en bas):

equation   (7.54)

peut très facilement être calculée avec l'outil Valeur Cible de MS Excel ou Calc de Open Office.

ESTIMATEURS DE LA LOI GAMMA

Nous allons utiliser ici une technique appelée "méthode des moments" pour déterminer les estimateurs des paramètres de la loi Gamma.

Supposons que X1, ..., Xn sont des variables aléatoires indépendantes et identiquement distribuées selon la loi Gamma avec pour densité:

equation   (7.55)

Nous cherchons à estimer equation. Pour cela, nous déterminons d'abord quelques moments théoriques.

Le premier moment est l'espérance qui comme nous l'avons démontré vaut:

equation   (7.56)

et le second moment, l'espérance du carré de la variable, est comme nous l'avons démontré implicitement lors de la démonstration de la variance de la loi Gamma:

equation   (7.57)

Nous exprimons ensuite la relation entre les paramètres et les moments théoriques:

equation   (7.58)

La résolution donne:

equation   (7.59)

Une fois ce système  établie, la méthode des moments consiste à utiliser les moments empiriques, en l'occurrence pour notre exemple les deux premiers, equation:

equation   (7.60)

que l'on pose égaux aux moments théoriques vrais... Dès lors, il vient:

equation   (7.61)

INTERVALLES DE CONFIANCE

Jusqu'à maintenant nous avons toujours déterminé les différents estimateurs de vraisemblance ou estimateurs simples (variance, écart-type) à partir de lois (fonctions) statistiques théoriques ou mesurées sur toute une population de données.

Définition: Un intervalle de confiance est un couple de nombres qui définit une plage de valeurs possibles avec une certaine probabilité pour un estimateur statistique donné.

Nous allons maintenant aborder une approche un peu différente et importante dans l'industrie en se demandant maintenant quelles doivent être les tailles d'échantillons pour avoir une certaine validité (intervalle de confiance I.C.) pour les données mesurées ou encore quel écart-type ou fractile dans une loi Normale centrée réduite (grand nombre d'échantillons), du Khi-deux, de Student ou de Fisher correspond à un certain intervalle de confiance (nous verrons ces deux derniers cas de faibles échantillons dans la partie traitant de l'analyse de la variance ou ANOVA) lorsque la variance ou la moyenne est connue ou respectivement inconnue sur l'ensemble ou une partie de la population donnée.

Indiquons que ces intervalles de confiance utilisent le théorème central limite démontré plus loin (afin d'éviter toute frustration) et que les développements que nous allons faire maintenant nous seront également utiles dans le domaine des Tests d'Hypothèses qui ont une place majeure en statistique!

Enfin, indiquons que de très nombreuses organisations (privées ou étatiques) font des statistiques fausses car les hypothèses et conditions d'utilisation ne sont pas rigoureusement vérifiées ou simplement omises ou pire encore, toute la base (les mesures) ne sont pas collectées dans les règles de l'art (fiabilisation de la collecte de données).

Remarque: Le praticien doit être très prudent quant à au calcul des intervalles de confiance et à l'utilisation des tests d'hypothèses dans la pratique. Raison pour laquelle, afin d'éviter toute erreur triviale d'utilisation ou d'interprétation, il est important de se référer aux normes suivantes par exemple: ISO 2602:1980 (Interprétation statistique de résultats d'essais - Estimation de la moyenne - Intervalle de confiance), ISO 2854:1976 (Interprétation statistique des données - Techniques d'estimation et tests portant sur des moyennes et des variances), ISO 3301:1975 (Interprétation statistique des données - Comparaison de deux moyennes dans le cas d'observations appariées), ISO 3494:1976 (Interprétation statistique des données -- Efficacité des tests portant sur des moyennes et des variances), ISO 5479:1997 (Interprétation statistique des données - Tests pour les écarts à la distribution normale), ISO 10725:2000 + ISO 11648-1:2003 + ISO 11648-2:2001
(Plans et procédures d'échantillonnage pour acceptation pour le contrôle de matériaux en vrac), ISO 11453:1996 (Interprétation statistique des données - Tests et intervalles de confiance portant sur les proportions), ISO 16269-4:2010 (Interprétation statistique des données Détection et traitement des valeurs aberrantes), ISO 16269-6:2005 (Interprétation statistique des données - Détermination des intervalles statistiques de tolérance), ISO 16269-8:2004 (Interprétation statistique des données - Détermination des intervalles de prédiction), ISO/TR 18532:2009 (Lignes directrices pour l'application des méthodes statistiques à la qualité et à la normalisation industrielle).

I.C. SUR LA MOYENNE AVEC VARIANCE THÉORIQUE CONNUE

Commençons par le cas le plus simple et le plus courant qui est la détermination du nombre d'échantillons pour avoir une certaine confiance dans la moyenne des mesures effectuées d'une variable aléatoire supposée suivre une loi Normale.

D'abord rappelons que nous avons démontré au début de ce chapitre que l'erreur-type (écart-type à la moyenne) était:

equation   (7.62)

Maintenant, avant d'aller plus loin, considérons X comme une variable aléatoire suivant une loi Normale de moyenne equation et d'écart-type equation. Nous souhaiterions que la variable aléatoire ait par exemple 95% de probabilité cumulée de se trouver dans un intervalle symétrique borné donné. Ce qui s'exprime donc sous la forme suivante:

equation   (7.63)

Remarque: Donc avec un intervalle de confiance de 95% vous aurez raison 19 fois sur 20, ou n'importe quel autre niveau de confiance ou niveau de risque equation (1-niveau de confiance, soit 5%) que vous vous serez fixé à l'avance. En moyenne, vos conclusions seront donc bonnes, mais nous ne pourrons jamais savoir si une décision particulière est bonne! Si le niveau de risque est très faible mais que l'événement a quand même lieu, les spécialistes parlent alors de "grande déviation" ou de "black swan" (cygne noir). La gestion des valeurs aberrantes est traitée dans la norme ISO 16269-4:2010 Détection et traitement des valeurs aberrantes que tout ingénieur faisant des statistiques en entreprise se doit de respecter.

En centrant et réduisant la variable aléatoire:

equation   (7.64)

Notons maintenant Y la variable centrée réduite:

equation   (7.65)

Puisque la loi Normale centrée réduite est symétrique:

equation   (7.66)

D'où:

equation   (7.67)

A partir de là en lisant dans les tables numériques de la loi Normale centrée réduite, nous avons pour satisfaire cette égalité que:

equation   (7.68)

Ce qui s'obtient facilement avec MS Excel en utilisant la fonction: -NORMSINV((1-0.95)/2).

Donc:

equation   (7.69)

Ce qui est noté de façon traditionnelle dans le cas général autre que 95% par (Z étant la variable aléatoire correspond donc à la loi Normale centrée réduite):

equation   (7.70)

Or, considérons que la variable X sur laquelle nous souhaitons faire de l'inférence statistique est justement la moyenne (et nous démontrerons plus loin que celle-ci suit une loi Normale centrée réduite). Dès lors:

equation   (7.71)

nous en tirons:

equation   (7.72)

dont nous prenons évidemment (normalement...) la valeur entière supérieure…

Cette dernière notation est plus souvent écrite sous la forme suivante mettant mieux en évidence la largeur de l'intervalle de confiance à un niveau equation sous-jacent:

equation   (7.73)

Ainsi, nous pouvons maintenant savoir le nombre d'échantillons à avoir pour s'assurer un intervalle de précision equation (marge d'erreur) autour de la moyenne et pour qu'un pourcentage donné des mesures se trouvent dans cet intervalle et en supposant l'écart-type théorique equation  connu (ou imposé) d'avance (typiquement utilisé dans l'ingénierie de la qualité ou les instituts de sondages).

Autrement dit, nous pouvons calculer le nombre n d'échantillons à mesurer pour s'assurer un intervalle de confiance donné (associé à Z) de la moyenne mesurée en supposant l'écart-type théorique connu (ou imposé) et en souhaitant un précision de equation en valeur absolue sur la moyenne.

Cependant... en réalité, la variable Z provient du théorème central limite (voir plus bas) qui donne pour un échantillon de grande taille (approximativement):

equation   (7.74)

En réarrangeant nous obtenons:

equation   (7.75)

et comme Z peut être négatif ou positif alors il est plus censé d'écrire cela sous la forme:

equation   (7.76)

Soit:

equation   (7.77)

que les ingénieurs notent parfois:

equation   (7.78)

avec LCL étant la lower confidence limit et UCL la upper confidence limit. C'est de la terminologie Six Sigma (cf. chapitre de Génie Industriel).

Et nous venons de voir plus avant que pour avoir un intervalle de confiance à 95% nous devions avoir Z=1.96. Et puisque la loi Normale est symétrique:

equation   (7.79)

Cela se note finalement:

equation   (7.80)

Comme nous l'avons déjà mentionné, et nous le démontrerons un peu plus loin, la moyenne arithmétique centrée réduite d'une séries de variables aléatoires indépendantes et identiquement distribuées de variance fini suit asymptotiquement une loi Normale centrée réduite, alors l'intervalle de confiance ci-dessus à une portée très générale! Raison pour laquelle nous parlons parfois de "d'intervalle de confiance asymptotique de la moyenne".

Dans le cas particulier d'un I.C. (intervalle de confiance) à 95%, la dernière relation s'écrit:

equation   (7.81)

Parfois nous retrouvons l'inégalité antéprécédente sous la forme équivalente suivante:

equation   (7.82)

ou encore plus rarement sous la forme générale suivante (que l'on retrouve pour toutes les intervalles):

equation   (7.83)

ME signifie "marge d'erreur".

Nous sommes ainsi capables maintenant d'estimer des tailles de population nécessaires à obtenir un certain niveau de confiance equation dans un résultat, soit d'estimer dans quel intervalle de confiance se trouve la moyenne théorique en connaissant la moyenne expérimentale (empirique) et l'estimateur du maximum de vraisemblance de l'écart-type. Nous pouvons bien évidemment dès lors aussi déterminer la probabilité avec laquelle la moyenne est en dehors d'un certain intervalle... (l'un comme l'autre étant beaucoup utilisés dans l'industrie).

Enfin, signalons que du résultat précédent, nous déduisons immédiatement par la propriété de stabilité de la loi Normale (démontrée plus haut) le test suivant que nous retrouvons dans de très nombreux logiciels de statistiques:

equation   (7.84)

appelé "test Z bilatéral sur la différence de deux moyennes" avec l'intervalle de confiance correspondant:

equation   (7.85)

Remarque: La taille de la population mère pour les relations développées plus haut n'entre pas en ligne de compte dans le calcul des intervalles de confiance ni dans celui de la taille de l'échantillon, et pour cause, elle est considérée infinie. Il faut donc faire attention à ne pas avoir parfois des taills d'échantillons qui sont plus grandes que la population mère réelle possible...

I.C. SUR LA VARIANCE AVEC MOYENNE THÉORIQUE CONNUE

Commençons par démontrer une propriété fondamentale de la loi du khi-deux:

Si une variable aléatoire X suit une loi Normale centrée réduite equation alors son carré suit une loi du khi-deux de degré de liberté 1:

equation   (7.86)

Démonstration:

Pour démontrer cette propriété, il suffit de calculer la densité de la variable aléatoire equation avec equation. Or, si equation et si nous posons equation, alors pour tout equation nous obtenons:

equation   (7.87)

Puisque la loi Normale centrée réduite est symétrique par rapport à 0 pour la variable aléatoire X, nous pouvons écrire :

equation   (7.88)

En notant equation la fonction de répartition de la loi Normale centrée réduite (sa probabilité cumulée en d'autres termes pour rappel...), nous avons :

equation   (7.89)

et comme:

equation   (7.90)

alors:

equation   (7.91)

La fonction de répartition de la variable aléatoire (probabilité cumulée) equation est donc donnée par :

equation   (7.92)

si y est supérieur ou égal à zéro, nulle si y inférieur à zéro. Nous noterons cette répartition equation pour la suite des calculs.

Puisque la fonction de distribution est la dérivée de la fonction de répartition et que X suit une loi Normale centrée réduite alors nous avons pour la variable aléatoire X :

equation   (7.93)

alors nous avons pour la loi de distribution de Y  (qui est donc le carré de X pour rappel!):

equation   (7.94)

cette dernière expression correspond exactement à la relation que nous avions obtenue lors de notre étude de la loi du khi-deux en imposant un degré de liberté unité.

Le théorème est donc bien démontré, à savoir que si X suit une loi Normale centrée réduite alors son carré suit une loi du khi-deux à 1 degré de liberté tel que :

equation   (7.95)

equationC.Q.F.D.

Ce type de relation est utilisé dans les processus industriels et leur contrôle (cf. chapitre de Génie Industriel).

Nous allons maintenant utiliser un résultat démontré lors de notre étude de la loi Gamma. Nous avons effectivement vu plus haut que la somme de deux variables aléatoires suivant une loi Gamma suit aussi une loi Gamma dont les paramètres s'additionnent:

equation   (7.96)

Comme la loi du khi-deux n'est qu'un cas particulier de la loi Gamma, le même résultat s'applique.

Pour être plus précis, cela revient à écrire:

Si equation sont des variables aléatoires indépendantes (!) et identiquement distribuées N(0,1) alors par extension de la démonstration précédente où nous avons montré que:

equation   (7.97)

et de la propriété d'addition de la loi Gamma, la somme de leurs carrés suit alors une loi du khi-deux de degré k telle que:

equation   (7.98)

Ainsi, la loi du equation à k degrés de liberté est la loi de probabilité de la somme des carrés de k variables normales centrées réduites linéairement indépendantes entre elles. Il s'agit de la propriété de linéarité de la loi du Khi-deux (implicitement de la linéarité de la loi Gamma)!

Maintenant voyons une autre propriété importante de la loi du khi-deux: Si equation sont des variables aléatoires indépendantes et identiquement distribuées equation (donc de même moyenne et même écart-type et suivant une loi Normale) et si nous notons l'estimateur du maximum de vraisemblance de la variance:

equation   (7.99)

alors, le rapport de la variable aléatoire equation sur l'écart-type supposé connu de l'ensemble de la population (dit "écart-type vrai" ou "écart-type théorique" pour bien différencier!) multiplié par le nombre d'échantillons n de la population suit une loi du khi-deux de degré n telle que:

equation   (7.100)

Remarques:

R1. En laboratoire, les equation peuvent être vues comme une classe d'échantillons d'un même produit étudié identiquement par différentes équipes de recherche avec des instruments de même précision (écart-type de mesure nul).

R2. equation est la "variance interclasse" également appelée "variance expliquée". Donc elle donne la variance d'une mesure ayant eu lieu dans les différents laboratoires.

Ce qui est intéressant c'est qu'à partir du calcul de la loi du khi-deux en connaissant n et l'écart-type equation il est possible d'estimer cette variance (écart-type) interclasse.

Pour voir que cette dernière propriété est une généralisation élémentaire de la relation:

equation   (7.101)

il suffit de constater que la variable aléatoire equation est une somme de n carrés de N(0,1) indépendants les uns des autres. Effectivement, rappelons qu'une variable aléatoire centrée réduite (voir notre étude de la loi Normale) est donnée par:

equation   (7.102)

Dès lors:

equation   (7.103)

Or, puisque les variables aléatoires equation sont indépendantes et identiquement distribuées selon une loi Normale, alors les variables aléatoires:

equation   (7.104)

sont aussi indépendantes et identiquement distribuées mais selon une loi Normale centrée réduite.

Puisque:

equation   (7.105)

en réarrangeant nous obtenons:

equation   (7.106)

Donc sur la population de mesures, l'écart-type vrai suit la relation donnée ci-dessus. Il est donc possible de faire de l'inférence statistique sur l'écart-type lorsque la moyenne théorique est connue (...).

Puisque la fonction du khi-deux n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors l'intervalle de confiance à 95% (par exemple...) de la manière suivante:

equation   (7.107)

Soit en notant equation:

equation   (7.108)

le dénominateur étant alors bien évidemment la probabilité cumulée. Cette relation est rarement utilisée dans la pratique car la moyenne théorique n'est pas connue. Voyons donc le cas le plus courant:

I.C. SUR LA VARIANCE AVEC MOYENNE EMPIRIQUE

Cherchons maintenant à faire de l'inférence statistique lorsque la moyenne théorique de la population equation n'est pas connue. Pour cela, considérons maintenant la somme:

equation   (7.109)

où pour rappelequationest la moyenne empirique (arithmétique) de l'échantillon:

equation   (7.110)

En continuant le développement nous avons:

equation
  (7.111)

Or, nous avons démontré au début de ce chapitre que la somme des écarts à la moyenne était nulle. Donc:

equation
  (7.112)

et reprenons l'estimateur sans biais de la loi Normale (nous changeons de notation pour respecter les traditions et bien différencier la moyenne empirique de la moyenne théorique):

equation   (7.113)

Dès lors:

equation   (7.114)

ou autrement écrit:

equation   (7.115)

Puisque le deuxième terme (au carré) suit une loi Normale centrée réduite aussi, alors si nous le supprimons nous obtenons de par la propriété démontrée plus haut de la loi du Khi-deux:

equation   (7.116)

Ces développements nous permettent cette fois-ci de faire aussi de l'inférence sur la variance equation d'une loi equation lorsque les paramètres equation et equation sont tous les deux inconnus pour l'ensemble de la population. C'est ce résultat qui nous donne, par exemple, l'intervalle de confiance:

equation   (7.117)

lorsque la moyenne théorique equation est donc inconnue.

I.C. SUR LA MOYENNE AVEC VARIANCE EMPIRIQUE CONNUE

Nous avons démontré beaucoup plus haut que la loi de Student provenait de la relation suivante:

equation   (7.118)

si Z et U sont des variables aléatoires indépendantes et si Z suit une loi Normale centrée réduite N(0,1) et U une loi du khi-deux equation tel que:

equation   (7.119)

et rappelons que la fonction de densité (distribution) est symétrique!

Voici une application très importante du résultat ci-dessus:

Supposons que equation constituent un échantillon aléatoire de taille n issu de la loi equation. Alors nous pouvons déjà écrire que selon les développements faits plus haut:

equation   (7.120)

Et pour U qui suit une loi equation, si nous posons equation alors selon les résultats obtenus plus haut:

equation   (7.121)

Nous avons alors après quelques simplifications triviales:

equation   (7.122)

Donc puisque:

equation   (7.123)

suit une loi de Student de paramètre k alors nous obtenons le "independant one-sample t-test":

equation   (7.124)

suit aussi une loi de Student de paramètre n-1.

Ce qui nous donne aussi après réarrangement:

equation   (7.125)

Ce qui nous permet de faire de l'inférence sur la moyenne equation d'une loi Normale d'écart-type théorique inconnu (sous-entendu qu'il n'y a pas assez de valeurs expérimentales) mais dont l'estimateur sans biais de l'écart-type est connu. C'est ce résultat qui nous donne l'intervalle de confiance:

equation   (7.126)

où nous retrouvons les mêmes indices que pour l'inférence statistique sur la moyenne (espérance) d'une variable aléatoire d'écart-type (théorique) connu puisque la loi de Student tend asymptotiquement pour de grandes valeurs de n vers une loi Normale. Ainsi, l'intervalle précédent et l'intervalle suivant:

equation   (7.127)

donneront des valeurs très proches (à la troisième décimale) pour des grandeurs de n aux alentours des 10'000 (dans la pratique on considère qu'à partir de 100 c'est identique...).

Enfin, nous avons aussi en faisant les mêmes développements, la relation suivante pour la taille d'un échantillon:

equation   (7.128)

Nous pouvons bien évidemment dès lors aussi déterminer la probabilité avec laquelle la moyenne est dedans ou en dehors d'un certain intervalle... (l'une comme l'autre étant beaucoup utilisées dans l'industrie).

Le lecteur pourra s'amuser à contrôler avec MS Excel que pour un grand nombre de mesures n, la loi de Student tend vers la loi Normale centrée réduite en comparant les valeurs des deux fonctions ci-dessous:

=LOI.STUDENT.INVERSE.N(5%/2;n-1)
=LOI.NORMALE.STANDARD.INVERSE.N(5%/2)

Remarque: Le résultat précédent fut obtenu par William S. Gosset aux alentours de 1910. Gosset qui avait étudié les mathématiques et la chimie, travaillait comme statisticien pour la brasserie Guinness en Angleterre. À l'époque, on savait que si equation sont des variables aléatoires indépendantes et identiquement distribuées alors:

equation   (7.129)

Toutefois, dans les applications statistiques on s'intéressait bien évidemment plutôt à la quantité:

equation   (7.130)

on se contentait alors de supposer que cette quantité suivait à peu près une loi Normale centrée réduite ce qui n'était pas une mauvaise approximation comme le montre l'image ci-dessous (equation):

equation
Figure: 7.1 - Comparaison entre la fonction de distribution Normale et celle de Student

Suite à de nombreuses simulations, Gosset arriva à la conclusion que cette approximation était valide seulement lorsque n est suffisamment grand (donc cela lui donnait l'indication comme quoi il devait y avoir quelque part derrière le théorème central limite). Il décida de déterminer l'origine de la distribution et après avoir suivi un cours de statistique avec Karl Pearson il obtint son fameux résultat qu'il publia sous le pseudonyme de Student. Ainsi, on appelle loi de Student la loi de probabilité qui aurait dû être appelée la loi ou fonction de Gosset.

Signalons enfin que le test de Student est très utilisé pour identifier si des variations (progressions ou l'inverse) de la moyenne des chiffres de deux populations identiques sont significatives. C'est-à-dire que si la taille de deux échantillons dépendants est identique alors nous pouvons créer le test suivant (nous avons indiqué tous les différents types d'écritures que l'on peut retrouver dans la littérature et dans les nombreux logiciels implémentant ce test):

equation   (7.131)

Avec:

equation   (7.132)

La relation antéprécédente est donc très utile pour comparer deux fois le même échantillon dans des situations différentes de mesure (ventes avant ou après rabais d'un article par exemple). Cette dernière relation est appelée "test de Student de deux moyennes d'échantillons appariés (ou échantillons dépendants)".

TEST BINOMIAL EXACT

Il arrive fréquemment lors de mesures que l'on souhaite comparer si deux échantillons de petite taille pris au hasard (sans remise!) d'une population elle aussi petite... sont significativement différents ou non alors que l'on attendait une égalité parfaite (50%/50%)!

Il s'agit donc d'un test adapté aux cas suivants:

- Savoir si un échantillon d'une population préfère utiliser une technique de travail plutôt qu'une autre alors que l'on s'attend à ce que la population utilise autant l'une que l'autre

- Savoir si un échantillon d'une population a une caractéristique prédominante parmi deux possibilités alors que l'on s'attend à ce que la population soit parfaitement équilibrée.

Avant d'aller plus en détails, rappelons qu'il faut être extrêmement prudent quant à la manière d'obtenir les deux échantillons. Il faut que l'expérience soit non biaisée, cela signifie pour rappel, que le protocole de tirage ne doit en aucun cas avantager l'une au l'autre des caractéristiques de la population (si vous étudiez l'équilibre homme/femme dans une population en attirant dans le sondage des personnes grâce à un cadeau sous la forme de bijoux vous aurez alors un échantillon biaisé... car vous aurez probablement naturellement plus de femmes que d'hommes...).

Ceci étant dit, cette situation correspond donc à une loi binomiale pour laquelle nous avons démontré plus haut dans ce chapitre que la probabilité de k réussites pour une population de taille N dont la probabilité de réussite est p (et la probabilité d'échec q donc de 1-p) était donnée par la relation:

equation   (7.133)

Dans le cas qui nous intéresse, nous avons donc equation:

equation   (7.134)

tout en se rappelant que la distribution ne sera pas pour autant symétrique et ce surtout si la taille N de la population est petite.

Si nous notons maintenant x le nombre de réussites (taille du premier échantillon) et y le nombre d'échecs (taille du deuxième échantillon), nous avons alors:

equation   (7.135)

Ceci étant fait, pour construire le test et de par l'asymétrie de la distribution, nous allons calculer la probabilité cumulée que k soit plus petit que le x obtenu par l'expérience et la sommer à la probabilité cumulée pour que k soit plus grand que le y obtenu par l'expérience (ce qui correspond à la probabilité cumulée des queues respectivement gauche et droite de la distribution). Cette somme sera notée p pour la suite telle que:

equation   (7.136)

et cette dernière relation est appelée "test binomial exact (bilatéral)".

Si la valeur de p obtenue pour la somme est au-dessus d'une certaine probabilité cumulée minimale equation fixée à l'avance, nous dirons alors que la différence avec un échantillon tiré au hasard dans une population parfaitement équilibrée n'est pas significative (en bilatéral...) et respectivement si elle est en-dessous, la différence sera donc significative et nous rejetterons l'équilibre supposé.

Ainsi, si:

equation   (7.137)

la différence par rapport à une population équilibrée sera considérée donc comme non significative. Souvent on prendra au maximum equation comme valant 5% (mais rarement en-dessous) ce qui correspond donc à un intervalle de confiance de 95%.

Malheureusement d'un logiciel de statistiques à l'autre les paramètres demandés ou les résultats obtenus ne seront pas nécessairement les mêmes (les tableurs n'intègrent pas de fonction spécifique pour le test binomial, il faudra souvent construire un tableau ou programmer soi-même la fonction). Par exemple, certains logiciels calculent:

equation   (7.138)

exempleExemple:

D'une petite population ayant deux caractéristiques x et y particulières qui nous intéressaient et pour laquelle nous nous attendions à avoir un parfait équilibre tel que equation nous avons en réalité obtenu equation et equation. Nous souhaiterions faire le calcul avec MS Excel pour savoir si cette différence est significative ou non à un niveau de 5%?

Pour répondre à cette question, nous allons calculer:

equation   (7.139)

ce qui nous donne:

equation
Figure: 7.2 - Valeurs du calcul des coefficients binomiaux dans MS Excel

soit explicitement:

equation
Figure: 7.3 - Formules du calcul des coefficients binomiaux dans MS Excel

donc la valeur p étant de 0.774 (soit 77.4%) la différence par rapport à une population équilibrée sera considérée donc comme non significative.

I.C. POUR UNE PROPORTION

Indiquons que certains statisticiens utilisent le fait que la loi Normale découle de la loi de Poisson qui elle-même découle de la loi Binomiale (nous l'avons démontré lorsque n tend vers l'infini et que p et q sont du même ordre) pour faire un intervalle de confiance dans le cadre de l'analyse de proportions (très utilisé dans l'analyse de la qualité dans les industries).

Pour voir cela, notons equation la variable aléatoire définie par:

equation   (7.140)

où l'attribut A peut être la propriété "défectueux" ou "non défectueux" par exemple pour une analyse de pièces. Nous noterons k le nombre de réussites de l'attribut A.

La variable aléatoire equation nous l'avons démontré au début de ce chapitre, suit une loi Binomiale de paramètres n et p avec les moments:

equation   (7.141)

Ceci étant, nous ne connaissons pas la valeur vraie de p. Nous allons donc utiliser l'estimateur de la loi Binomiale démontré plus haut:

equation   (7.142)

D'après les propriétés de l'espérance nous avons alors:

equation   (7.143)

Et nous avons d'après les propriétés de la variance, la relation suivante pour la variance de la moyenne empirique de la proportion:

equation   (7.144)

Ce qui nous amène alors à:

equation et equation   (7.145)

Maintenant rappelons enfin que nous avons démontré que la loi Normale découlait de la loi Binomiale sous certaines conditions (les praticiens admettent que c'est applicable tant que n>50 et equation ). Autrement dit, que la variable aléatoire X suivant une loi Binomiale suit une loi Normale sous certaines conditions. Évidemment, si X suit une loi Normale alors X/n aussi (et donc equation...). Dès lors nous pouvons centrer et réduire equation afin qu'il se comporte comme la variable aléatoire centrée réduite notée Z:

equation   (7.146)

exempleExemple:

Si 5% de la production annuelle d'une entreprise est défectueuse, quelle est la probabilité qu'en prenant un échantillon de 75 pièces de la ligne de production que seulement 2% ou moins soit défectueux?

Nous avons dès lors avec:

equation   (7.147)

La probabilité cumulée correspondante à cette valeur de la variable aléatoire est avec MS Excel:

=NORMSDIST(-1.19)=11.66%

Nous pouvons maintenant approximer l'intervalle pour la proportion en se basant sur la loi Binomiale et son comportement asymptotiquement normal dans les conditions démontrées lors de notre introduction de la loi Normale tel que:

equation   (7.148)

exempleExemple:

Prenons equation, nous avons alors:

equation   (7.149)

Sur une production de 300 éléments nous en avons trouvé 8 qui étaient défectueux. Quel est donc l'intervalle de confiance?

Nous vérifions d'abord avec:

equation   (7.150)

que:

equation   (7.151)

Donc il est acceptable d'utiliser l'intervalle de confiance par la loi Normale. Nous avons dès lors:

equation   (7.152)

Pour clore ce sujet, nous pouvons évidemment nous intéresser aussi au nombre d'échantillons qu'il faut avoir pour satisfaire une certaine précision d'intervalle de confiance (imposé) en ayant un écart-type imposé.

Nous avons donc selon les hypothèses susmentionnées et dans l'acceptation de l'approximation par une loi Normale que:

equation   (7.153)

Et en procédant de manière identique aux développements effectués plus haut avec la loi Normale, nous obtenons:

equation   (7.154)

dont nous prenons évidemment normalement la valeur entière supérieure dans la pratique...

Une question qui revient souvent dans la pratique concerne le fait de savoir s'il faut prendre en unilatéral ou bilatéral. Rigoureusement, la détermination des tailles d'échantillons, se fait par construction mathématique toujours en bilatéral.

Remarque: La taille de la population mère pour les relations développées plus haut n'entre pas en ligne de compte dans le calcul des intervalles de confiance ni dans celui de la taille de l'échantillon, et pour cause, elle est considérée infinie. Il faut donc faire attention à ne pas avoir parfois des taills d'échantillons qui sont plus grandes que la population mère réelle possible...

exempleExemple:

Nous souhaiterions savoir le nombre d'échantillons à prendre d'un lot de production sachant que la proportion de défectueux est imposée à 30% avec une erreur tolérée d'environ 5% entre la proportion réelle et empirique et ce afin d'obtenir un intervalle de confiance à un niveau de 95% du résultat:

equation   (7.155)

Remarque: La dernière relation est très très souvent utilisée en théorie des sondages (analyses pour des votations avec réponses de type: Oui/Non) où parfois la taille de l'échantillon n est imposée pour des raisons de coûts du sondage et dont nous cherchons à calculer l'incertitude equation et parfois l'inverse (l'incertitude est imposée et donc nous cherchons à connaître la taille de l'échantillon).

TEST DE L'ÉGALITÉ DE DEUX PROPORTIONS

Toujours dans le même contexte que l'approximation précédente de la loi Binomiale par une loi Normale, l'industrie (en particulier la biostatistique) est friande de comparer deux proportions de deux populations différentes afin de savoir si elles sont statistiquement égales ou non (autrement dit: significativement différentes ou pas).

Dès lors rappelons que nous avons démontré la stabilité de la loi Normale si deux variables aléatoires étaient indépendantes et identiquement distribuées (selon une loi Normale donc!):

equation   (7.156)

Dans le cadre des hypothèses susmentionnées il en est alors de même approximativement pour la différence de deux proportions:

equation   (7.157)

Dès lors nous savons que cette nouvelle variable centrée réduite suit une loi Normale selon:

equation   (7.158)

et comme nous cherchons à savoir la probabilité cumulée que l'espérance théorique de la différence est nulle, cette dernière relation se réduit alors dans ce cas à:

equation   (7.159)

Il semblerait cependant que cette dernière relation approximative serait d'après l'expérience plus correcte en prenant pour dénominateur:

equation   (7.160)

equation sera pris comme le mélange de deux populations. C'est-à-dire:

equation   (7.161)

soit:

equation   (7.162)

Ce test est aussi appelé "test Z de l'égalité de deux proportions"

exempleExemple:

Dans le cadre d'un plan d'échantillonnage (cf. chapitre de Génie Industriel) nous avons prélevé sur un premier lot de 50 échantillons, 48 en parfait états. Dans un second lot de 30 échantillons, 26 étaient en bon état.

Nous avons donc:

equation   (7.163)

Nous souhaiterions donc savoir si la différence est significative avec une certitude de 95% ou simplement due au hasard. Nous utilisons alors:

equation   (7.164)

et:

equation   (7.165)

Ce qui correspond à une probabilité cumulée en utilisant MS Excel de:

=NORMSDIST(1.535)=93.77%

Donc la différence est due au hasard (ceci dit c'est presque in extremis...). Autrement dit, elle n'est pas significative sous les contraintes énoncées.

TEST DES SIGNES (TEST DE LA MÉDIANE)

Nous mesurons quelque chose sur un échantillon puis, plus tard, nous mesurons la même chose sur ce même échantillon (donc il s'agit échantillons appariés). Les deux classements sont comparés et chaque observation est affectée d'un signe ("+" en cas d’élévation dans le classement, "–" en cas de descente). Celles qui restent au même niveau sont éliminées.

Selon l'hypothèse à tester, il y a autant de + que de –, c'est-à-dire que la médiane de la distribution n'a pas bougé.

L'idée étant que pour chaque couple de valeurs, il n'y a que deux signes possibles de variations, nous avons une chance sur deux (50% de probabilité) que la différence soit positive ou négative. Il est basé uniquement sur l'étude des signes des différences observées entre les paires d'individus, quelles que soient les valeurs de ces différences.

Nous pouvons souhaiter contrôler deux hypothèses:

- L'inégalité des proportions de signes doit être significative. Donc l'un deux signes doit être en petit nombre par rapport à l'autre, ce qui correspond à un test unilatéral gauche (la probabilité cumulée d'avoir ce petit nombre de signes doit être inférieur à un niveau equation donné).

- La proportion des deux signes doit être faiblement déséquilibrée (equation). Il s'agit donc dans ce cas d'un test en bilatéral (c'est le cas le plus courant) avec un certain niveau equation donné.

Pour pouvoir créer un tel test, nous allons considérons l'apparition des "+" et des "-" comme un système de tirage aléatoire binaire dont l'ordre des succès n'est pas pris en compte (il s'agit donc d'une loi binomiale ou hypergéométrique) et avec remise (ce qui élimine d'emblée la loi hypergéométrique qui n'est pas symétrique et pose des problèmes d'utilisation dans la pratique...) . Pour considérer un tirage aléatoire avec remise (alors qu'on ne fait pas réellement de remise), il faut que la population N soit grande. Raison pour laquelle le test du signe considère que les valeurs appariées doivent être continues.

exempleExemple:

Considérons deux séries de mesures avec deux méthodes différentes. Nous souhaiterions tester l'hypothèse avec un niveau equation de 5% si la différence entre les deux méthodes est significative (nous nous attendons donc à une équilibre des signes).

20.4, 25.4, 25.6, 25.6, 26.6, 28.6, 28.7, 29, 29.8, 30.5, 30.9, 31.1
20.7, 26.3, 26.8, 28.1, 26.2, 27.3, 29.5, 32, 30.9, 32.3, 32.3, 31.7

Nous avons donc les différences:

-0.3, -0.9, -1.2, -2.5, 0.4, 1.3, -0.8, -3.0, -1.1, -1.8, -1.4, -0.6

Soit:

-, -, -, -, +, +, -, -, -, -, -, -

Bon il déjà clair que le résultat va être le rejet de l'hypothèse comme quoi il n'y pas de différence. Mais faisons quand même le calcul. Comme le test est en bilatéral à un niveau de 5%, la probabilité cumulée d'avoir obtenu au moins deux signes "+" ne doit pas être inférieure à 2.5% et pas supérieure à 97.5% si l'on veut accepter (ne pas rejeter) l'hypothèse comme quoi la différence n'est pas significative.

Nous avons alors:

equation   (7.166)

Donc la probabilité cumulée est inférieur à 2.5% et n'est de loin pas supérieure à 97.5%, nous rejetons l'hypothèse comme quoi la différence n'est pas significative.

Nous pourrions accepter l'hypothèse si nous prenions pour  equation la valeur:

equation   (7.167)

Donc pour résumer un peu les convergences de lois dans ces différentes tests et intervalles, nous proposons au lecteur le schéma suivant qui résume plus ou moins bien les choses:

equation Figure: 7.4 - Convergence des différentes lois usuelles en inférence statistique élémentaire

LOI FAIBLE DES GRANDS NOMBRES

Nous allons maintenant nous attarder sur une relation très intéressante en statistiques qui permet de dire pas mal de choses tout en ayant peu de données et ce quelle que soit la loi considérée (ce qui est pas mal quand même!). C'est une propriété très utilisée en simulation statistique par exemple dans le cadre de l'utilisation de Monte-Carlo.

Soit une variable aléatoire à valeurs dans equation. Alors nous allons démontrer la relation suivante appelée "inégalité de Markov" :

equation   (7.168)

avec equation  dans le contexte particulier des probabilités.

En d'autres termes, nous proposons de démontrer que la probabilité qu'une variable aléatoire soit plus grande ou égale qu'une valeur equation est inférieure ou égale à son espérance divisée par la valeur considérée equation et ce quelle que soit la loi de distribution de la variable aléatoire X!

Démonstration:

Notons les valeurs de X par equation, où equation (c'est-à-dire triées par ordre croissant) et posons equation. Nous remarquons d'abord que l'inégalité est triviale au cas oùequation. Effectivement, comme X ne peut être compris qu'entre 0 et equation par définition alors la probabilité qu'il soit supérieur à equation est nulle. En d'autres termes :

equation   (7.169)

et X étant positif, E(X) l'est aussi, d'où l'inégalité pour ce cas particulier dans un premier temps.

Sinon, nous avons equation et il existe alors un equation tel que equation. Donc :

equation   (7.170)

equationC.Q.F.D.

exempleExemple:

Nous supposons que le nombre de pièces sortant d'une usine donnée en l'espace d'une semaine est une variable aléatoire d'espérance 50. Si nous souhaitons estimer la probabilité cumulée que la  production dépasse 75 pièces nous appliquerons simplement :

equation   (7.171)

Considérons maintenant une sorte de généralisation de cette inégalité appelée "inégalité de Bienaymé-Tchebychev" (abrégée "inégalité BT") qui va nous permettre d'obtenir un résultat très très très intéressant et important un peu plus bas.

Considérons une variable aléatoire X. Alors nous allons démontrer l'inégalité de Bienaymé-Tchebychev suivante:

equation   (7.172)

qui exprime le fait que plus l'écart-type est petit, plus la probabilité que la variable aléatoire X s'éloigne de son espérance est faible.

Nous obtenons cette inégalité en écrivant d'abord :

equation   (7.173)

où le choix du carré va nous servir pour une simplification future.

Puis en appliquant l'inégalité de Markov (comme quoi c'est quand même utile...) à la variable aléatoire equation avec equation il vient automatiquement :

equation   (7.174)

Ensuite, en utilisant la définition de la variance:

equation    (7.175)

Nous obtenons bien:

equation   (7.176)

Si nous posons:

equation   (7.177)

l'inégalité s'écrit:

equation   (7.178)

et exprime que la probabilité qu'afin que X s'éloigne de son espérance de plus que t fois son écart-type, est inférieure à equation. Il y a, en particulier, moins de 1 chance sur 9 pour que X s'éloigne de son espérance de plus de trois fois l'écart-type.

exempleExemple:

Nous reprenons l'exemple où le nombre de pièces sortant d'une usine donnée en l'espace d'une semaine est une variable aléatoire d'espérance 50. Nous supposons en plus que la variance de la production hebdomadaire est de 25. Nous cherchons à calculer la probabilité que la production de la semaine prochaine soit comprise entre 40 et 60 pièces.

Pour calculer ceci il faut d'abord se souvenir que l'inégalité de BT est basée en parties sur le terme equation donc nous avons :

equation   (7.179)

donc l'inégalité de BT nous permet bien de travailler sur des intervalles égaux en valeur absolue ce qui s'écrit aussi :

equation   (7.180)

Ensuite, ne reste plus qu'à appliquer simplement l'inégalité numériquement :

equation   (7.181)

Ces deux dernières inégalités vont nous permettre d'obtenir une relation très importante et puissante que nous appelons la "loi faible des grands nombres" (L.F.G.N.) ou encore "théorème de Khintchine".

Considérons une variable aléatoire X admettant une variance et equation une suite de variables aléatoires indépendantes (donc non corrélées deux-deux) de même loi que X et ayant toutes les mêmes espérances equation et les mêmes écarts-types equation.

Ce que nous allons montrer est que si nous mesurons une même quantité aléatoire equation de même loi au cours d'une suite d'expériences indépendantes (alors dans ce cas, nous disons techniquement que la suite equation de variables aléatoires est définie sur le même espace probabilisé), alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance de X quand le nombre de mesures est infiniment élevé.

De manière formelle ceci s'exprime sous la forme :

equation  (7.182)

lorsque equation c'est cela le résultat très important dont nous faisions mention plus haut! L'estimateur empirique de la moyenne tend donc pour toute loi vers l'espérance vraie si n est grand! Donc de par la même nous assurons que la moyenne empirique est un estimateur convergent de l'espérance!

Donc en d'autres termes la probabilité cumulée que la différence entre la moyenne arithmétique et l'espérance des variables aléatoires observées soit comprise dans un intervalle autour de la moyenne tend vers zéro quand le nombre de variables aléatoires mesurées tend vers l'infini (ce qui est finalement intuitif).

Ce résultat nous permet d'estimer l'espérance mathématique en utilisant la moyenne empirique (arithmétique) calculée sur un très grand nombre d'expériences.

Démonstration:

Nous utilisons l'inégalité de Bienaymé-Tchebychev pour la variable aléatoire (cette relation s'interprète difficilement mais permet d'avoir le résultat escompté):

equation   (7.183)

Et nous calculons d'abord en utilisant les propriétés mathématiques de l'espérance que nous avions démontrées plus haut:

equation   (7.184)

et dans un deuxième temps en utilisant les propriétés mathématiques de la variance aussi déjà démontrées plus haut :

equation   (7.185)

et puisque nous avons supposé les variables non corrélées entre elles alors la covariance est nulle dès lors :

equation   (7.186)

Donc en injectant cela dans l'inégalité BT :

equation   (7.187)

nous avons alors :

equation   (7.188)

qui devient:

equation   (7.189)

et l'inégalité tend bien vers zéro quand n au dénominateur tend vers l'infini.

equationC.Q.F.D.

Signalons que cette dernière relation est souvent notée dans certains ouvrages et conformément à ce que nous avons vu au début de ce chapitre:

equation   (7.190)

ou encore:

equation   (7.191)

Donc, pour equation:

equation   (7.192)

FONCTION CARACTÉRISTIQUE

Avant de donner une démonstration à la manière de l'ingénieur du théorème central limite, introduisons d'abord le concept de "fonction caractéristique" qui tient une place centrale en statistiques.

D'abord, rappelons que la transformée de Fourier est donnée dans sa version physicienne par (cf. chapitre de Suites et Séries) la relation:

equation   (7.193)

Rappelons que la transformation de Fourier est un analogue de la théorie des séries de Fourier pour les fonctions non périodiques, et permet de leur associer un spectre en fréquences.

Nous souhaitons maintenant démontrer que si:

equation alors equation   (7.194)

En d'autres termes, nous cherchons une expression simplifiée de la transformée de Fourier de la dérivée de f(x).

Démonstration:

Nous partons donc de:

equation   (7.195)

Une intégration par parties donne :

equation   (7.196)

En imposant que,  f tend vers zéro à l'infini, nous avons alors:

equation   (7.197)

et:

equation   (7.198)

C'est le premier résultat dont nous avions besoin.

equationC.Q.F.D.

Maintenant, démontrons que si:

equation alors equation   (7.199)

Démonstration:

Nous partons donc de:

equation   (7.200)

C'est le deuxième résultat dont nous avions besoin.

equationC.Q.F.D.

Maintenant effectuons le calcul de la transformée de Fourier de la loi Normale centrée-réduite (ce choix n'est pas innocent...):

equation   (7.201)

Nous savons que cette dernière relation est trivialement solution de l'équation différentielle (ou bien elle vérifie):

equation   (7.202)

en prenant la transformée de Fourier des deux côté de l'égalité, nous avons en utilisant les deux résultats précédents:

equation alors equation   (7.203)
equation alors equation

Nous avons:

equation   (7.204)

Ou encore:

equation   (7.205)

Donc après intégration:

equation   (7.206)

Nous avons:

equation   (7.207)

Nous avons démontré lors de notre étude de la loi Normale que:

equation   (7.208)

Donc:

equation   (7.209)

Nous avons alors (résultat important!):

equation   (7.210)

Introduisons maintenant la fonction caractéristique telle que définie par les statisticiens:

equation   (7.211)

qui est un outil analytique important et puissant permettant d'analyser une somme de variables aléatoires indépendantes. De plus, cette fonction contient toutes les informations caractéristiques de la variable aléatoire X.

Remarque: La notation n'est pas innocente puisque le E[...] représente une espérance de la fonction de densité par rapport à l'exponentielle complexe.

Donc la fonction caractéristique de la variable aléatoire normale centrée réduite de distribution:

equation   (7.212)

devient simple à déterminer car:

equation   (7.213)

raison pour laquelle la fonction caractéristique de la loi Normale centrée réduite est souvent assimilée à une simple transformée de Fourier.

Et grâce au résultat précédent:

equation   (7.214)

Donc:

equation   (7.215)

qui est le résultat dont nous avons besoin pour le théorème central limite.

Mais avant cela, regardons d'un peu plus près cette fonction caractéristique:

equation   (7.216)

En développement de Maclaurin nous avons (cf. chapitre Suites et Séries) et en changeant un peu les notations:

equation   (7.217)

et en intervertissant la somme et l'intégrale, nous avons:

equation   (7.218)

Cette fonction caractéristique contient donc tous les moments (terme général utilisé pour l'écart-type et l'espérance) de X.

THÉORÈME CENTRAL LIMITE

Le théorème central limite est un ensemble de résultats du début du 20ème siècle sur la convergence faible d'une suite de variables aléatoires en probabilité. Intuitivement, d'après ces résultats, toute somme  (implicitement: la moyenne de ses variables) de variables aléatoires indépendantes et identiquement distribuées tend vers une certaine variable aléatoire. Le résultat le plus connu et le plus important est simplement appelé "théorème central limite" qui concerne une somme de variables aléatoires indépendantes avec variance existante dont le nombre tend vers l'infini et c'est celui-ci que nous allons démontrer de manière heuristique ici.

Dans le cas le plus simple, considéré ci-dessous pour la démonstration du théorème, ces variables sont continues, indépendantes et possèdent la même moyenne et la même variance. Pour tenter d'obtenir un résultat fini, il faut centrer cette somme en lui soustrayant sa moyenne et la réduire en la divisant par son écart-type. Sous des conditions assez larges, la loi de probabilité (de la moyenne) converge alors vers une loi Normale centrée réduite. L'omniprésence de la loi Normale s'explique par le fait que de nombreux phénomènes considérés comme aléatoires sont dus à la superposition de causes nombreuses.

Ce théorème de probabilités possède donc une interprétation en statistique mathématique. Cette dernière associe une loi de probabilité à une population. Chaque élément extrait de la population est donc considéré comme une variable aléatoire et, en réunissant un nombre n de ces variables supposées indépendantes, nous obtenons un échantillon. La somme de ces variables aléatoires divisée par n donne une nouvelle variable nommée la moyenne empirique. Celle-ci, une fois réduite, tend vers une variable Normale réduite lorsque n tend vers l'infini comme nous le savons.

Le théorème central limite nous dit à quoi il faut s'attendre en matière de sommes de variables aléatoires indépendantes. Mais qu'en est-il des produits ? Eh bien, le logarithme d'un produit (à facteurs strictement positifs) est la somme des logarithmes des facteurs, de sorte que le logarithme d'un produit de variables aléatoires (à valeurs strictement positives) tend vers une loi Normale, ce qui entraîne une loi log-Normale pour le produit lui-même.

En elle-même, la convergence vers la loi Normale ("normalité asymptotique") de nombreuses sommes de variables aléatoires lorsque leur nombre tend vers l'infini n'intéresse que le mathématicien. Pour le praticien, il est intéressant de s'arrêter un peu avant la limite : la somme d'un grand nombre de ces variables est presque gaussienne, ce qui fournit une approximation souvent plus facilement utilisable que la loi exacte.

En s'éloignant encore plus de la théorie, on peut dire que bon nombre de phénomènes naturels sont dus à la superposition de causes nombreuses, plus ou moins indépendantes. Il en résulte que la loi Normale les représente de manière raisonnablement efficace.

A l'inverse, on peut dire qu'aucun phénomène concret n'est vraiment Gaussien car il ne peut dépasser certaines limites, en particulier s'il est à valeurs positives.

Démonstration:

Soit equation une suite (échantillon) de variables aléatoires continues (dans notre démonstration simplifiée...), indépendantes (mesures de phénomènes physiques ou mécaniques indépendants par exemple) et identiquement distribuées, dont la moyenne equationet l'écart-type equation existent (ce qui signifie que le théorème central limite fonctionne que pour les phénomènes à variance finie!!!).

Nous avons vu au début de ce chapitre que:

equation   (7.219)

sont les mêmes expressions d'une variable centrée réduite générée à l'aide d'une suite de n variables aléatoires identiquement distribuées qui par construction a donc une moyenne nulle et une variance unitaire:

equation et equation   (7.220)

Développons la première forme de l'égalité antéprécédente (les 2 sont de toute façon égales!):

equation   (7.221)

Maintenant utilisons la fonction caractéristique de la loi Normale centrée-réduite (nous allégeons par la même occasion l'écriture des estimateurs de la moyenne et de l'écart-type):

equation   (7.222)

Comme les variables aléatoires equation sont indépendantes et identiquement distribuées, il vient:

equation   (7.223)

Un développement de Taylor du terme entre accolades donne au troisième ordre:

equation   (7.224)

Finalement:

equation
  (7.225)

Posons:

equation   (7.226)

Nous avons alors:

equation   (7.227)

Nous avons donc quand x tend vers l'infini (cf. chapitre d'Analyse fonctionnelle):

equation   (7.228)

Nous retrouvons donc la fonction caractéristique de la loi Normale centrée réduite!

En deux mots, le Théorème Central Limite (TCL) dit que pour de grands échantillons, la somme centrée et réduite de n variables aléatoires identiquement distribuées suit une loi Normale centrée et réduite. Et donc nous avons in extenso pour la moyenne empirique:

equation   (7.229)

Malgré l'immensité de son champ d'applications, le TCL n'est pas universel. Dans sa forme la plus simple, il impose en particulier à la variable considérée d'avoir des moments du premier et du deuxième ordre (moyenne et variance). Si tel n'est pas le cas, il ne s'applique plus.

L'exemple le plus simple d'échec du TLC est donné par la distribution de Cauchy, qui n'a ni moyenne, ni variance, et dont la moyenne empirique a toujours la même distribution (Cauchy) quelle que soit la taille de l'échantillon.

Maintenant, nous allons illustrer le théorème central limite dans le cas d'une suite equation de variables aléatoires indépendantes discrètes suivant une loi de Bernoulli de paramètre 1/2.

Nous pouvons imaginer que equation représente le résultat obtenu au n-ème lancé d'une pièce de monnaie (en attribuant le nombre 1 pour pile et 0 pour face). Notons:

equation   (7.230)

la moyenne. Nous avons pour tout n bien évidemment:

equation    equation   (7.231)

et donc:

equation      equation   (7.232)

Après avoir centré et réduit equation nous obtenons:

equation   (7.233)

Notons equation la fonction de répartition de la loi Normale centrée réduite.

Le théorème central limite nous dit que pour tout equation:

equation   (7.234)

A l'aide de Maple nous avons tracé en bleu quelques graphiques de la fonction:

equation   (7.235)

pour différentes valeurs de n. Nous avons représenté en rouge la fonction equation.

equation :

equation
Figure: 7.5 - Première approche de la loi de Bernoulli par le loi Normale selon le TCL

equation :

equation
Figure: 7.6 - Deuxième approche de la loi de Bernoulli par le loi Normale selon le TCL

equation

equation
Figure: 7.7 - Troisième approche de la loi de Bernoulli par le loi Normale selon le TCL

equation

equation
Figure: 7.8 - Quatrième approche de la loi de Bernoulli par le loi Normale selon le TCL

Ces graphiques obtenus avec Maple à l'aide des commandes suivantes:

> with(stats):
> with(plots):
> e1:=plot(Heaviside(t+1)*statevalf[dcdf,binomiald[1,0.5]](trunc((t+1)/2)),t=-2..2,y=0..1,color=blue):
> e2:=plot(Heaviside(t+sqrt(2))*statevalf[dcdf,binomiald[2,0.5]](trunc((t*sqrt(2)+2)/2)),t=-sqrt(2)-1..sqrt(2)+1,y=0..1,color=blue):
> e3:=plot(Heaviside(t+sqrt(5))*statevalf[dcdf,binomiald[5,0.5]](trunc((t*sqrt(5)+5)/2)),t=-sqrt(5)-1..sqrt(5)+1,y=0..1,color=blue):
> e4:=plot(statevalf[cdf,normald](t),t=-5..5):
> e5:=plot(Heaviside(t+sqrt(30))*statevalf[dcdf,binomiald[30,0.5]](trunc((t*sqrt(30)+30)/2)),t=-sqrt(30)-1..sqrt(30)+1,y=0..1,color=blue):
> display({e1,e4});
> display({e2,e4});
> display({e4,e3});
> display({e5,e4});

montrent bien la convergence de equation vers equation.

En fait nous remarquons que la convergence est carrément uniforme ce qui est confirmé par le "théorème central limite de Moivre-Laplace":

Soit equation une suite de variables aléatoires indépendantes de même loi de Bernoulli de paramètre p, equation. Alors:

equation   (7.236)

tend uniformément vers equation sur equation lorsque equation.

TESTS D'HYPOTHÈSE (OU D'ADÉQUATION)

Lors de notre étude des intervalles de confiance, rappelons que nous sommes arrivés aux quelques relations suivantes (ce n'est que l'échantillon des plus importantes démontrées plus haut!):

equation   (7.237)

et:

equation   (7.238)

et:

equation   (7.239)

et enfin:

equation   (7.240)

qui permettaient donc de faire de l'inférence statistique en fonction de la connaissance ou non de la moyenne ou de la variance vraie sur la totalité ou sur un échantillon de la population. En d'autres termes de savoir dans quelles bornes se situait un moment (moyenne ou variance) en fonction d'un certain niveau de confiance equation imposé. Nous avions vu que le deuxième intervalle ci-dessus ne peut être que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le troisième.

Nous allons également démontrer en détails plus loin les deux intervalles suivants:

equation   (7.241)

et:

equation   (7.242)

Le premier intervalle ci-dessus ne peut être lui aussi que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le deuxième.

Lorsque nous cherchons à savoir si nous pouvons faire confiance à la valeur d'une statistique (moyenne, médiane, variance, coefficient de corrélation, etc.) avec une certaine certitude, nous parlons de "test d'hypothèse" et plus particulièrement de "test de conformité" (nous parlons de "test d'adéquation" quand il s'agit de vérifier que des mesures suivante bien une loi donnée et non juste une statistique).

Les tests d'hypothèses sont destinés à vérifier si un échantillon peut être considéré comme extrait d'une population donnée ou représentatif de cette population, vis-à-vis d'un paramètre comme la moyenne, la variance ou la fréquence observée. Ceci implique que la loi théorique du paramètre soit connue au niveau de la population.

Par exemple, si nous souhaitons savoir avec une certaine confiance si une moyenne donnée d'un échantillon de population est réaliste par rapport à la vraie moyenne théorique inconnue, nous utiliserons le "test-Z" qui est simplement:

equation   (7.243)

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

equation   (7.244)

alors la soustraction (différencier) des moyennes donne:

equation   (7.245)

Donc pour la différence de deux moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

equation   (7.246)

Nous pouvons alors adapter le test-Z sous la forme:

equation   (7.247)

La relation qui est très utile lorsque pour deux échantillons de deux populations de données, nous voulons vérifier s'il existe une différence significative des différences des moyennes théoriques à un niveau de confiance equation fixé et la probabilité associée pour avoir cette différence:

equation   (7.248)

Donc:

equation   (7.249)

Nous parlons du "test-Z de la moyenne à deux échantillons" et il est beaucoup utilisé dans l'industrie pour vérifier l'égalité de la moyenne de deux populations de mesures.

Et si l'écart-type théorique n'est pas connu, nous utiliserons le "test-T" de Student (pas mal utilisé en pharmaco-économie) démontré plus haut:

equation   (7.250)

Dans la même idée pour l'écart-type, nous utiliserons le "test du khi-deux" aussi déjà démontré plus haut:

equation   (7.251)

Et lorsque nous voulons tester l'égalité de la variance de deux populations nous utilisons le "test-F" de Fisher (démontré plus bas lors de notre étude de l'analyse de la variance):

equation   (7.252)

Le fait que nous obtenions alors l'ensemble des valeurs satisfaisant à ce test borné à droite et (!) à gauche est ce que nous appelons dans le cas général un "test bilatéral" car il comprend le test unilatéral à gauche et unilatéral à droite. Ainsi, tous les tests susmentionnés sont dans une forme bilatérale mais nous pourrions en faire une analyse unilatérale aussi! Nous utilisons un test unilatéral lorsque la différence attendue ne peut aller que dans un sens (typiquement dans le cas des essais cliniques ou lors d'un action corrective de contrôle qualité en industrie pour laquelle nous nous attendons à une amélioration allant dans une unique direction). Les test unilatéraux sont parfois nommés "test de non-infériorité" (unilatéral gauche) ou "test de non-supériorité" (unilatéral droite).

Ci-dessous, nous avons représenté par exemple un test unilatéral à droite (car la région de rejet est à droite et donc la probabilité cumulée est unilatérale gauche) et un test bilatéral:

equation
Figure: 7.9 - Illustration d'un test (ou intervalle de confiance) unilatéral à droite et bilatéral

Signalons aussi que les tests d'hypothèses sur l'écart-type (variance), la moyenne ou la corrélation sont appelés des "tests paramétriques" à l'inverse des tests non-paramétriques que nous verrons plus loin.

Remarques:

R1. Il existe également une autre définition du concept de test paramétrique et non-paramétrique (un peu différente car plus précise) à voir plus loin...

R2. Attention! Certains auteurs ou professeurs parlent parfois de test "unilatéral à gauche" pour un "test unilatéral à droite"... Au fait il s'agit simplement d'un choix de vocabulaire. Si la référence pédagogique n'est pas la zone de rejet mais la zone d'acception, alors il est clair que les concepts de droite de gauche s'inversent...

Enfin, de nombreux logiciels calculent ce que nous appelons la "p-value" qui est le risque calculé (probabilité) equation qu'aurait pu fixer le statisticien pour être à la limite entre l'acceptation de l'hypothèse nulle et son rejet. La p-value est donc une valeur fondamentale dans le domaine car elle permet de chiffrer la vraisemblance de l'hypothèse nulle equation(acception ou rejet).

Pour un test d'hypothèse, par exemple, le 5% de risque equation est celui de rejeter l'hypothèse nulle equation alors même qu'elle est vraie. Si le risque imposé/choisi est 5% et que la p-value calculée est inférieure (dans la majorité des tests mais il faut être prudent car ce n'est pas une généralité!!!), le test échoue (rejet de l'hypothèse) en faveur d'une hypothèse alternative notée equation ou parfois equation.

L'hypothèse alternative a bien évidemment elle-même son propre risque que nous notons equation et sa propre p-value.

Peut-être, pour mieux comprendre, voici une illustration d'un cas particulier d'un test d'hypothèse bilatéral de la moyenne pour une variable aléatoire suivant typiquement une loi Normale (en gros c'est le même principe pour tous les tests...):

equation
Figure: 7.10 - Hypothèse nulle et alternative d'un test bilatéral particulier

Ainsi, dans le cas présenté ci-dessus, nous voyons mieux pourquoi l'hypothèse nulle peut donc être acceptée ou rejetée en faveur de l'hypothèse alternative (qui est de même loi que l'hypothèse nulle mais juste décalée) dépendant de la valeur de référence mesurée qui sera utilisée pour le test (en l'occurence dans le cas particulier il s'agit de la moyenne arithmétique des mesures).

Nous remarquons aussi que la zone rouge de l'hypothèse alternative, correspondant à la probabilité cumuléeequation, est confondue en partie avec la partie jaune de l'hypothèse nulle. Raison pour laquelle nous pouvons parfois accepter l'hypothèse nulle à tort. Nous voyons cependant que plus equation serait petit, plus l'hypothèse alternative serait donc éloignée de la zone limite rouge de l'hypothèse nulle (cela correspondrait à une translation vers la droite dans le cas présent) et moins la probabilité de faire une fausse conclusion est grande. Raison pour laquelle nous parlons de "risqueequation" car plus celui-ci est petit, mieux c'est. In extenso, plus equation est grand, moins il y a de risque de confondre l'hypothèse nulle et alternative. Raison pour laquelle equation est appelé "puissance du test".

Nous acceptons l'hypothèse nulle si la p-value est plus grande que 5% (0.05). Au fait, plus la p-value est grande, mieux c'est car l'intervalle de confiance est de plus en plus petit. Si l'intervalle de confiance vient à être énorme (très proche de 100%) car la p-value est très petite alors l'analyse n'a plus vraiment de sens physiquement parlant!

Ainsi, si la p-value est faible, c'est qu'il faudrait prendre un risque faible de se tromper, donc accepter dans presque tous les cas l'hypothèse testée...

Remarque:

Nous ne devrions jamais dire que nous "acceptons" une hypothèse ou encore qu'elle est "vraie" ou "fausse" car ces termes sont trop forts et pourraient faire penser à une preuve scientifique. Nous devrions dire si nous "rejetons" ou "ne rejetons pas" l'hypothèse et qu'elle est éventuellement "correcte" ou "non correcte".

Pour les test d'hypothèses bilatéraux, nous pouvons par exemple dire que nous avons (ou n'avons pas) une différence significative entre la valeur de référence mesurée et la valeur attendue. Pour les tests unilatéraux, nous pouvons dire que la valeur de référence mesurée est significativement plus grande ou plus petite que la valeur attendue.

Par ailleurs si le lecteur a bien compris la construction des tests d'hypothèses, le fait de rejeter une hypothèse à tort ("Erreur de Type I" ou "Erreur de première espèce") est donc plus robuste que de l'accepter à tort ("Erreur de type II" ou "Erreur de deuxième espèce").

Le lecteur remarquera aussi en s'aidant de la figure précédent qu'un test unilatéral a une plus forte puissance qu'un test unilatéral (a même niveau de risque bien entendu!). Ainsi, une différence non significative en test bilatéral, peut s'avérer non significative en unilatéral.

Pour clore, voici les trois situations types de tests d'hypothèses sur la statistique qu'est la moyenne dans le cadre d'une distribution sous-jacente normale et dont l'espérance est dans ce cas particulier supposée nulle et de variance unitaire (car on peut très souvent ce ramener à ce cas particulier en centrant et réduisant la variable aléatoire sous-jacente):

equation
Figure: 7.11 - Les trois scénarios possibles d'un test d'hypothèse sur la moyenne

Indiquons que cela n'a aucun sens (contrairement à ce que nous pouvons parfois lire sur certains supports papier ou électronique) d'avoir les hypothèses nulles suivantes dans le cas paticulier représenté ci-dessus:

equation   (7.253)

avec l'hypothèse alternative qui en découle automatiquement (je ne l'ai pas écrite car c'est inutile). La raison en est simple: comment pourriez-vous positioner votre distribution Normale centrée réduite si l'espérance n'est pas fixée...??? Raison pour laquelle l'hypothèse nulle dans le cadre des tests sur la moyenne (et d'un certain autre nombre de tests) est toujours une égalité!

Pour résumer, nous pouvons dire que si nous prenons une décision, nous pouvons nous tromper et il vaut mieux éviter de se tromper souvent. En clair, la probabilité de dire une bêtise doit être connue et de préférence petite.

Nous allons dans ce qui suit démontrer l'origine du test-F de Fisher et par la même occasion nous introduirons deux autres tests qui sont le "test-T homoscédastique" et le "test-T hétéroscédastique".

ANALYSE DE LA VARIANCE (À UN FACTEUR)

L'objectif de l'analyse de la variance (contrairement à ce que son nom pourrait laisser penser) est une technique statistique permettant de comparer les moyennes de deux populations ou plus (très utilisé dans le pharma ou dans les labos de R&D ou de bancs d'essais). Cette méthode, néanmoins, doit son nom au fait qu'elle utilise des mesures de variance afin de déterminer le caractère significatif, ou non, des différences de moyennes mesurées sur les populations.

Plus précisément, la vraie signification est de savoir si le fait que des moyennes d'échantillons sont (légèrement) différentes peut être attribué au hasard de l'échantillonnage ou provient du fait qu'un facteur de variabilité engendre réellement des échantillons significativement différents (si nous avons les valeurs de toute la population, nous n'avons rien à faire!).

Pour l'analyse de la variance appelée "ANOVA à un facteur" (ANalysis Of VAriance) ou "ANAVAR à un facteur" (ANAlyse de la VARiance), ou encore "ANOVA à une voie", nous allons d'abord rappeler, comme nous l'avons démontré, que la loi de Fisher-Snedecor est donnée par le rapport de deux variables aléatoires indépendantes qui suivent une loi du khi-deux et divisée par leur degré de liberté tel que:

equation   (7.254)

et nous allons voir maintenant son importance.

Considérons un échantillon aléatoire de taille n, disons equation issu de la loi equation et un échantillon aléatoire de taille m, disons equation issu de la loi equation.

Considérons les estimateurs du maximum de vraisemblance de l'écart-type de la loi Normale traditionnellement notés dans le domaine de l'analyse de la variance par:

equation et equation   (7.255)

Les statistiques ci-dessus sont celles que nous utiliserions pour estimer les variances si les moyennes théoriques equation étaient connues. Donc nous pouvons utiliser un résultat démontré plus haut lors de notre étude des intervalles de confiance:

equation   (7.256)

Comme les equation sont indépendantes des equation (hypothèse!), les variables:

equation   (7.257)

sont indépendantes l'une de l'autre.

Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

equation et equation   (7.258)

ainsi que:

equation et equation   (7.259)

Nous avons donc:

equation   (7.260)

Soit:

equation   (7.261)

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne théorique est connue. Puisque la fonction de Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors pour un intervalle de confiance donné le test de la manière suivante:

equation   (7.262)

Dans le cas où les moyennes equation sont inconnues, nous utilisons les estimateurs sans biais des variances traditionnellement notés dans le domaine de l'analyse de la variance par:

equation et equation   (7.263)

Pour estimer les variances théoriques, nous utilisons le résultat démontré plus haut:

equation et equation   (7.264)

Comme les equation sont indépendantes des equation (hypothèse!), les variables:

equation   (7.265)

sont indépendantes l'une de l'autre. Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

equation et equation   (7.266)

ainsi que:

equation et equation   (7.267)

Nous avons donc:

equation   (7.268)

Soit:

equation   (7.269)

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne empirique est connue. Puisque la fonction de Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors pour un intervalle de confiance donné le "test de Fisher" de la manière suivante:

equation   (7.270)

tout en se rappelant que son utilisation nécessite implicitement des contraintes de normalité des variables étudiées.

R. A. Fisher (1890-1962) est, comme Karl Pearson, l'un des principaux fondateurs de la théorie moderne de la statistique. Fisher étudia à Cambridge où il obtint en 1912 un diplôme en astronomie. C'est en étudiant la théorie de l'erreur dans les observations astronomiques que Fisher s'intéressa à la statistique. Fisher est l'inventeur de la branche de la statistique appelée l'analyse de la variance.

Au début du 20ème siècle, R. Fischer développe donc la méthodologie des plans d'expérience (cf. chapitre de Génie Industriel). Pour valider l'utilité d'un facteur, il met au point un test permettant d'assurer que des échantillons différents sont de natures différentes. Ce test est basé sur l'analyse de la variance (des échantillons), et nommé ANOVA (analyse normalisée de la variance).

Prenons k échantillons de n valeurs aléatoires chacun (appelé "facteur explicatif" dans l'analyse de la variance). Chacune des valeurs étant considérée comme une observation ou une mesure de quelque chose ou sur la base de quelque chose (un lieu différent, ou un objet différent... bref: un seul et unique facteur de variabilité entre les échantillons!). Nous aurons donc un nombre total de N d'observations (mesures) donné par:

equation   (7.271)

si chacun des échantillons a un nombre identique de valeurs (taille de l'échantillon) tel que equation nous parlons alors de "plan équilibré" à k niveaux (ou k modalités).

Remarque: Si nous avons plusieurs facteurs de variabilité (par exemple: chaque lieu compare à lui-même plusieurs laboratoires), nous parlerons alors d'ANOVA multifactorielle. Dès lors, s'il n'y a que deux facteurs de variabilité, nous parlons d'ANOVA à deux facteurs (voir plus loin pour plus de détails).

Nous considérerons que chacun des k échantillons est issu (suit) d'une variable aléatoire suivant une loi Normale.

En termes de test, nous voulons tester si les moyennes des k échantillons sont égales sous l'hypothèse que leurs variances sont égales. Ce que nous écrivons sous forme d'hypothèse de la manière suivante:

equation   (7.272)

Autrement dit: les échantillons sont représentatifs d'une même population (d'une même loi statistique). C'est-à-dire que les variations constatées entre les valeurs des différents échantillons sont dues essentiellement au hasard. Pour cela nous étudions la variabilité des résultats dans les échantillons et entre les échantillons. Il revient exactement au même de poser que (formulation qu'on retrouve dans certains articles ou ouvrages):

equation   (7.273)

Nous noterons i l'indice d'échantillon (de 1 à k) et j l'indice de l'observation (de 1 à n). Donc equation sera la valeur de la j-ème observation de l'échantillon de données numéro i.

Comme dans la pratique les échantillons i sont souvent représentés en colonnes et les observations j en ligne, l'indice ij se lit alors dans le sens opposé à celui vu dans le chapitre d'Algèbre Linéaire pour les matrices (i étant ici la colonne et j la ligne). Mais ceci dit, la permutation des indices ne change en rien les résultats des développements qui vont suivre!

Selon l'hypothèse susmentionnée, nous avons:

equation   (7.274)

Nous noterons par equation la moyenne empirique/estimée (arithmétique) de l'échantillon i:

equation   (7.275)

et equationla moyenne empirique/estimée des N valeurs (soit la moyenne des equation) donnée donc par:

equation   (7.276)

En utilisant  les propriétés de l'espérance et de la variance déjà démontrées plus haut nous savons que:

equation et equation   (7.277)

avec equation qui est la moyenne des moyennes vraies equation:

equation   (7.278)

Maintenant, introduisons la "variance totale" comme étant la variance estimée sans biais en considérant l'ensemble des N observations comme un seul échantillon:

equation   (7.279)

où le terme au numérateur est appelé "somme des carrés des écarts totaux".

La "variance entre échantillons" (c'est-à-dire entre les moyennes des échantillons) est l'estimateur de la variance des moyennes des échantillons:

equation   (7.280)

où le terme au numérateur est appelé "somme des carrés des écarts entre échantillons".

Comme nous avons démontré que si toutes les variables sont identiquement distribuées (même variance) la variance des individus vaut n fois celle de la moyenne:

equation   (7.281)

alors la "variance des observations" (variables aléatoires dans un échantillon) est donnée par:

equation   (7.282)

Nous avons donc ci-dessus l'hypothèse de l'égalité des variances qui est exprimée sous forme mathématique pour les développements à suivre.

La "variance résiduelle" est l'effet des facteurs dits non contrôlés. C'est par définition la moyenne des variances des échantillons.

equation   (7.283)

où le terme au numérateur est appelé "somme des carrés des écarts des résidus".

Au final, ces indicateurs sont parfois résumés sous la forme suivante:

equation   (7.284)

Remarquons que si les échantillons n'ont pas la même taille (ce qui est rare), nous avons alors:

equation   (7.285)

Remarques:

R1. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SST signifiant en anglais "Sum of Squares Total" ou plus rarement TSS pour "Total Sum of Squares".

R2. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SSB signifiant en anglais "Sum of Squares Between (samples)" ou plus rarement SSk pour "Sum of Squares Between treatments".

R3. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SSW signifiant en anglais "Sum of Squares Within (samples)" ou plus rarement SSE pour "Sum of Squares due to Errors".

Indiquons que nous voyons souvent dans la littérature (nous réutiliserons un peu plus loin cette notation):

equation   (7.286)

avec donc l'estimateur sans biais de la variance des observations:

equation   (7.287)

Avant d'aller plus loin, arrêtons-nous sur la variance résiduelle. Nous avons donc pour des échantillons qui ne sont pas de même taille:

equation   (7.288)

Ouvrons maintenant une petite parenthèse... Prenons le cas particulier de deux échantillons seulement. Nous pouvons alors écrire:

equation   (7.289)

Soit en introduisant l'estimateur du maximum de vraisemblance de la variance:

equation   (7.290)

Nous pouvons d'ailleurs observer que dans le cas particulier où:

equation   (7.291)

alors:

equation   (7.292)

Donc:

equation   (7.293)

Supposons maintenant que nous souhaitions comparer avec un certain intervalle de confiance la moyenne de deux populations ayant une variance différente pour savoir si elles sont de natures différentes ou non.

Nous connaissons pour le moment deux tests pour vérifier les moyennes. Le test-Z et le test-T. Comme dans l'industrie il est rare que nous ayons le temps de prendre des grands échantillons, concentrons-nous sur le deuxième que nous avions démontré plus haut:

equation   (7.294)

Et rappelons aussi que:

equation   (7.295)

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

equation   (7.296)

alors la soustraction (différencier) des moyennes donne:

equation   (7.297)

Donc pour la différence de deux  moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

equation   (7.298)

Et maintenant l'idée est de prendre l'approximation (sous l'hypothèse que les variances sont égales):

equation   (7.299)

Cette approximation est appelée "hypothèse homoscédastique".

Nous avons alors l'intervalle de confiance:

equation   (7.300)

Comme l'idée est de tester l'égalité des moyennes théoriques à partir des estimateurs connus alors:

equation   (7.301)

avec:

equation   (7.302)

Dans la plupart des logiciels disponibles sur le marché, le résultat est uniquement donné à partir du fait que le equation que nous avons est compris dans le equation correspondant à l'intervalle de confiance donné rappelons-le par:

equation   (7.303)

dans le cas de l'hypothèse homoscédastique (égalité des variances).

Remarque: Cette dernière relation est appelée "independent two-sample T-test", ou "test-T homoscédastique" ou encore "test d'égalité des espérances de deux observations avec variances égales", avec taille des échantillons différentes et variances égales. Souvent dans la littérature, les deux moyennes théoriques sont égales lors de la comparaison. Il s'en suit que nous avons alors:

equation   (7.304)

Sinon, dans le cas plus général de l'hypothèse d'hétéroscédasticité (non égalité des variances), nous écrivons explicitement:

equation   (7.305)

Donc:

equation   (7.306)

Remarque: La relation antéprécédente est appelée "independent two-sample T-test", ou "test-T hétéroscédastique" ou encore "test d'égalité des espérances: deux observations avec variances différentes". Si la taille des échantillons est égale et que les variances le sont aussi et que nous supposons les deux moyennes théoriques égales lors de la comparaison, il s'ensuit que nous avons alors:

equation   (7.307)

Bref, fermons cette parenthèse et revenons à nos moutons... Nous en étions donc au tableau suivant:

equation   (7.308)

où nous avons donc dans le cas d'échantillons de même taille:

equation   (7.309)

Ainsi que l'erreur totale qui est la somme de l'erreur des moyennes (interclasses) et de l'erreur résiduelle (intra-classes) et ce que les échantillons soient de même taille ou non:

equation   (7.310)

Effectivement:

equation   (7.311)

Or, nous avons:

equation   (7.312)

car:

equation   (7.313)

Donc:

equation   (7.314)

Sous les hypothèses mentionnées au début (égalité des moyennes entre échantillons) nous avons:

equation   (7.315)

ce qui découle immédiatement de la démonstration que nous avions faite lors de notre étude de l'inférence statistique où nous avions obtenu:

equation   (7.316)

Ce que nous souhaitons faire c'est voir s'il y a une différence entre la variance des moyennes (interclasses) et la variance résiduelle (intra-classes). Pour comparer deux variances lorsque les moyennes vraies sont inconnues nous avons vu que le mieux était d'utiliser le test de Fisher.

De même, nous avons:

equation   (7.317)

Effectivement, d'abord nous avons:

equation   (7.318)

Donc de par la linéarité de la loi du Khi-deux:

equation   (7.319)

puisque:

equation   (7.320)

et parce que:

equation   (7.321)

Donc pour résumer nous avons:

equation et equation   (7.322)

et puisque equation, nous avons alors:

equation   (7.323)

C'est maintenant qu'intervient la loi de Fisher dans l'hypothèse où les variances sont égales! Puisque:

equation et equation   (7.324)

Or, nous avons démontré dans notre étude de la loi de Fisher un peu plus haut que:

equation   (7.325)

ou dans notre cas d'étude:

equation   (7.326)

Indiquons encore que la relation précédente:

equation   (7.327)

est souvent indiquée dans la littérature sous la forme suivante:

equation   (7.328)

où MSK est appelé "Mean Square for treatments" et MSE "Mean Square for Error". Ce rapport va donc nous donner la valeur de la variable aléatoire F (dont le support est pour rappel borné à zéro à gauche). Comme il s'agit d'une loi qui n'est pas symétirque il est peu judicieux de faire un test bilatéral. On fera ains plutôt un test unilatéral à droite (la région de rejet étant à droite).

L'interprétation de cette fraction est donc en gros la suivante: Il s'agit du rapport (normalisé au nombre de degrés de liberté) de la somme de l'erreur des moyennes (interclasses) et de l'erreur résiduelle (intra-classes) ou autrement dit le rapport de la variance interclasse par la variance résiduelle. Ce rapport suit donc une loi de Fisher à deux paramètres donnés par les degrés de liberté des classes respectives.

Remarque: S'il y a seulement deux populations (échantillons), il faut bien comprendre qu'à ce moment l'utilisation du test-T de Student suffit amplement et est considéré comme équivalent! Au fait, l'ANOVA est une comparaison indirecte des moyennes, Student une comparaison directe... il est donc évident de deviner lequel est le mieux dans cette situation particulière!

Tous les calculs que nous avons faits sont très souvent représentés dans les logiciels sous la forme d'une table standardisée dont voici la forme et le contenu (c'est ainsi que le présente MS Excel ou Minitab par exemple):

Source

Somme des carrés

ddl du equation

Moyenne des carrés

F

Valeur critique Fc

Inter-Classe

equation

k-1

equation

equation

equation

Intra-Classe

equation

N-k

equation

   

Total

equation

N-1

     

Tableau: 7.1  - Terminologie et paramètres traditionnels d'un tableau ANOVA (TAV) à un facteur

ainsi, pour que l'hypothèse soit acceptée, il faut que la valeur de:

equation   (7.329)

soit plus petite ou égale au centile de la même loi F avec une probabilité cumulée correspondant à 1 soustrait de niveau de confiance equation.

La valeurs choisie du F critique est un peu malheureuse à mon avis dans les tableaux d'ANOVA (mais bon une fois que l'on sait que c'est ainsi...). Il est peut-être plus aisé de comprendre cette valeur si nous l'introduisons ainsi (le test unilatéral à droite ressort pédagogiquement mieux à mon avis):

equation   (7.330)

Il faut donc pour que le test ne soit pas rejeté que:

equation   (7.331)

Donc la valeur critique de F correspond simplement et bêtement à la probabilité cumulée de la p-value.

Il faut cependant bien se rappeler que pour utiliser l'ANOVA, on doit donc supposer que les échantillons sont issus d'une même population (données appariées) et suivent une loi normale. Il est donc nécessaire de vérifier la normalité des distributions et l'homoscédasticité (test de Levene). Dans le cas contraire, il faut utiliser des variantes non paramétriques de l'analyse de variance (ANOVA de Kruskal-Wallis ou ANOVA de Friedman). Ces tests ne sont pas encore démontrés en détails à ce jour sur le site.

ANALYSE DE LA VARIANCE (ANOVA À DEUX FACTEURS sans répétition)

Nous allons voir maintenant le concept d'interaction qui est fondamental pour bien comprendre ce qu'il y a derrière l'ANOVA à deux facteurs sans et surtout avec répétition. Effectivement, ce n'est qu'avec l'ANOVA à deux facteurs avec répétition – par construction mathématique - que l'on peut statistiquement (sous certaines hypothèses) étudier objectivement si deux ou plusieurs facteurs interagissent de manière significative ensemble.

Il nous faut donc, avant de passer à la partie mathématique pure, introduire quelques notions:

Définitions:

D1. Nous disons qu'il y a "absence d'interaction" quand la moyenne des réponses d'un facteur en fonction de ses niveaux varie de la même amplitude et avec le même signe que la moyenne des réponses d'un autre facteur en fonction de ses niveaux. Nous disons alors que les courbes de réponses dans le diagramme des interactions sont parallèles.

Remarque: Le parallélisme des réponses est normal en situation d'absence d'interaction, car cela signifie que quel que soit le niveau de l'un ou l'autre des facteurs, la variation (si elle existe), de la réponse sera toujours la même de la même amplitude. Ce qui est caractéristique de l'indépendance (du moins localement).

D2. Nous disons que deux facteurs sont "en interaction" quand la moyenne des réponses d'un facteur en fonction de ses niveaux ne varie pas de la même amplitude ou/et pas avec le même signe que la moyenne des réponses d'un autre facteur en fonction de ses niveaux. Nous disons alors que les courbes de réponses dans le diagramme des interactions ne sont pas parallèles.

Remarque: L'absence d'interaction est une hypothèse très forte et une observation rare. Souvent, nous avons des interactions ou fortes interactions.

Pour comprendre le concept, nous utiliserons de petits exemples sans répétition qui permettront d'avoir une idée qualitative du phénomène mais en aucun cas une approche scientifique de l'interaction.

Considérons le petit tableau suivant

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

3

3

Niveau 2

3

3

Tableau: 7.2 - Premier exemple d'une petite ANOVA à deux facteurs sans répétition

Et nous aurons comme représentatives avec un logiciel comme Minitab:

equation
Figure: 7.12 - Graphique des effets principaux avec Minitab 15

Nous voyons bien qu'aucun facteur n'a un effet principal sur quoi que ce soit. Ce qui est relativement intuitif étant donné le contenu de tableau précédent.

Le diagramme des interactions donne lui:

equation
Figure: 7.13 - Diagramme des interations avec Minitab 15

où nous pouvons constater que les facteurs n'interagissent pas entre eux (ou se neutralisent c'est selon...). Nous disons alors qu'il n'y a "(a priori) aucun effet ni aucune interaction (localement)". Au fait dans certaines expériences, l'absence d'interaction est une hypothèse très forte et donc souvent rare. Raison pour laquelle il faut faire attention aux mots choisis lors de l'interprétation des graphiques d'interaction (car ne pas passer par les calculs purs est délicat pour cette étape voir non scientifique!).

Maintenant voyons le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

2

2

Niveau 2

4

4

Tableau: 7.3 - Deuxième exemple d'une petite ANOVA à deux facteurs sans répétition

Il nous paraît clair que le Facteur 1 semble avoir une influence sur la réponse. Mais voyons les différentes représentatives:

equation
Figure: 7.14 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Il apparaît clairement dans le graphique du dessus qu'il y a uniquement le niveau du Facteur 1 qui influence la réponse, alors que  le Facteur 2 n'influence en rien la réponse. Nous disons alors qu'il y a effet principal (localement) du Facteur1.

Sur le diagramme des interactions, nous avons la même information, mais sous une forme différente. Nous voyons que quelque soit le niveau du Facteur 2, les réponses sont horizontales et donc celui-ci n'influence en rien les résultats. Nous sommes donc dans une situation où "(a priori) l'effet principal est (localement) le Facteur 1 et en absence interactions entre les facteurs".

Voyons maintenant le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

4

2

Niveau 2

4

2

Tableau: 7.4 - Troisième exemple d'une petite ANOVA à deux facteurs sans répétition

Nous pouvons observer que Facteur 2 a une influence mais pas le Facteur 1. Mais voyons aussi cela sous forme de diagramme des interactions:

equation
Figure: 7.15 - Diagramme des interations avec Minitab 15

Nous observons bien sur le diagramme que le Facteur 1 n'a aucune influence. Sur le graphique de droite c'est moins évident (car il faudrait inverser les catégories et séries du graphique pour avoir le même graphique qu'avant) mais la superposition des deux droits montre que le Facteur 1 n'a pas d'influence. Nous disons alors qu'il y a "(a priori) effet principal (localement) du Facteur2 et en absence d'interactions entre les facteurs".

Considérons maintenant le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

3

1

Niveau 2

5

3

Tableau: 7.5 - Quatrième exemple d'une petite ANOVA à deux facteurs sans répétition

Nous voyons que les deux facteurs ont une influence sur la réponse. Ce que montre bien les deux représentatives ci-dessous:

equation
Figure: 7.16 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique du dessus que le Facteur 1 a une influence sur la réponse et qu'il est de même du Facteur 2 (et en plus de la même amplitude quel que soit le sens!). Sur le graphique du dessous c'est moins évident mais la même conclusion est valable. Nous disons alors que "(a priori) les deux facteurs sont (localement) significatifs et sans interactions".

Considérons maintenant le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

2

4

Niveau 2

4

2

Tableau: 7.6 - Cinquième exemple d'une petite ANOVA à deux facteurs sans répétition

qui sous cette forme n'est pas triviale à interpréter. Mais avec les représentatives on a tout de suite des informations plus pertinentes:


Figure: 7.17 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique de gauche qu'aucun des facteurs n'a d'influence sur la réponse a priori (même graphique qu'au tout début avec la même moyenne). Le graphique de droite nous donne une information complémentaire par contre!!!: Les facteurs ont une influence croisée et comme cette influence croisée est de même amplitude, les effets s'annulent. Nous disons alors que les "deux facteurs sont (localement) en interaction F1*F2".

Considérons maintenant le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

1

3

Niveau 2

5

3

Tableau: 7.7 - Sixième exemple d'une petite ANOVA à deux facteurs sans répétition

Ce qui nous donne les deux représentatives suivantes:

equation
Figure: 7.18 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique du dessus que le Facteur 1 semble avoir une influence et que le Facteur 2 non (en moyenne!). Le diagramme des interactions du dessous nous donne, lui aussi, encore une fois, une information complémentaire!!!: C'est que les facteurs sont en interaction. Nous disons alors que nous avons "(a priori) deux facteurs (localement) en interaction F1*F2 où l'influence du Facteur 1 est significative".

Considérons maintenant le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

3

3

Niveau 2

5

1

Tableau: 7.8 - Septième exemple d'une petite ANOVA à deux facteurs sans répétition

Ce qui nous donne les deux représentatives suivants:

equation
Figure: 7.19 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous disons alors que nous avons "(a priori) les deux facteurs (localement) en interaction F1*F2 où l'influence du Facteur 2 est significative".

Considérons maintenant le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

1

1

Niveau 2

5

1

Tableau: 7.9 - Hutième exemple d'une petite ANOVA à deux facteurs sans répétition

Ce qui nous donne les deux représentatives suivantes:

equation
Figure: 7.20 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous disons alors que nous avons "(a priori) les deux facteurs (localement) en interaction F1*F2 où l'influence des deux facteurs est significative".

TEST D'AJUSTEMENT DU KHI-DEUX

Nous allons étudier ici notre premier test d'ajustement non-paramétrique, un des plus connus certainement et des plus simples.

Supposons qu'une variable statistique suive une loi de probabilité P. Si nous tirons un échantillon dans la population correspondant à cette loi, la distribution observée s'écartera toujours plus ou moins de la distribution théorique, compte tenu des fluctuations d'échantillonnage.

Généralement, nous ne connaissons ni la forme de la loi P, ni la valeur de ses paramètres. C'est la nature du phénomène étudié et l'analyse de la distribution observée qui permettent de choisir une loi susceptible de convenir et d'en estimer les paramètres.

Les écarts entre la loi théorique et la distribution observée peuvent être attribués soit aux fluctuations d'échantillonnage, soit au fait que le phénomène ne suit pas, en réalité, la loi supposée.

En gros, si les écarts sont suffisamment faibles, nous admettrons qu'ils sont imputables aux fluctuations aléatoires et nous accepterons la loi retenue ; au contraire, s'ils sont trop élevés, nous en conclurons qu'ils ne peuvent pas être expliqués par les seules fluctuations et que le phénomène ne suit pas la loi retenue.

Pour évaluer ces écarts et pouvoir prendre une décision, il faut :

1. Définir la mesure de la distance entre distribution empirique et distribution théorique résultant de la loi retenue.

2. Déterminer la loi de probabilité suivie par cette variable aléatoire donnant la distance.

3. Énoncer une règle de décision permettant de dire, d'après la distribution observée, si la loi retenue est acceptable ou non.

Premièrement, nous aurons pour cela besoin du théorème central limite et deuxièmement rappelons que lors de la construction de la loi Normale, nous avons montré que la variable:

equation   (7.332)

suivait une loi Normale centrée réduite lorsque n tendait vers l'infini (condition de Laplace) et que la probabilité p était très petite.

En pratique, l'approximation est tout à fait acceptable... dans certaines entreprises... lorsque  equation  et equation soit (c'était un des termes qui devait tendre vers zéro quand nous avions fait la démonstration):

equation   (7.333)

Par exemple dans les deux figures ci-dessous où nous avons représenté les lois binomiales approchées par les lois Normales associées, nous avons à gauche equation et à droite equation:

equation
Figure: 7.21 - Approche de fonctions binomiales par fonctions Normales associées

Rappelons enfin, que nous avons démontré que la somme des carrés de n variables aléatoires normales centrées réduites linéairement indépendantes suit une loi du khi-deux à n degrés de liberté noté equation.

Considérons maintenant  une variable aléatoire X suivant une fonction de distribution théorique (continue ou discrète) P et tirons un échantillon de taille n dans la population correspondant à cette loi P.

Les n observations seront réparties suivant k modalités (classes de valeurs) C1, C2, ..., Ck, dont les probabilités p1, p2, ..., pk sont déterminées par la fonction de distribution P (se référer à l'exemple de la droite de Henry).

Pour chaque modalité Ci, l'effectif empirique est lui une variable aléatoire ki de loi binomiale:

equation   (7.334)

Cet effectif ki correspond en effet au nombre de succès "résultat égal à la modalité Ci" de probabilité pi, obtenus au cours des n tirages d'un lot expérimental (et non dans la population de la loi théorique comme avant).

Nous avons démontré lors de l'étude de la loi binomiale que son espérance:

equation   (7.335)

représente l'effectif théorique de la modalité Ci et sa variance est:

equation   (7.336)

car pi est relativement petite, ce qui donne  equation qui est assez proche de 1. Son écart-type est donc:

equation   (7.337)

Dans ces conditions, pourvu que la modalité Ci ait un effectif théorique npi au moins égal à 5, l'écart réduit:

equation   (7.338)

entre effectif empirique et effectif théorique peut être approximativement considéré comme une variable normale centrée réduite comme nous l'avons vu plus haut.

Nous définissons alors la variable:

equation   (7.339)

equationest souvent nommée "fréquence expérimentale" et equation "fréquence théorique".

Signalons que cette variable est aussi parfois (un peu malheureusement) notée:

equation    (7.340)

ou le plus souvent:

equation   (7.341)

Cette variable D, somme des carrés des variables Ei, nous donne une mesure de ce que nous pourrions appeler une "distance" ou  "différence" ou "écart" entre distribution empirique et distribution théorique. Notons bien cependant qu'il ne s'agit pas d'une distance au sens mathématique habituel (topologique).

Rappelons que D peut donc aussi s'écrire:

equation   (7.342)

D est donc la somme des carrés de N variables aléatoires normales centrées réduites liées par la seule relation linéaire:

equation   (7.343)

n est la taille de l'échantillon. Donc D suit une loi khi-deux mais à N-1 degrés de liberté, donc un degré de moins à cause de l'unique relation linéaire qui les lie! Effectivement, rappelons que le degré de liberté indique le nombre de variables indépendantes dans la somme et non pas juste le nombre de termes sommés.

Donc:

equation   (7.344)

Nous appelons ce test un "test non-paramétrique du khi-2" ou "test du khi-2 de Pearson" ou encore "test d'ajustement du khi-2" ou encore "test de Karl Pearson".

Ensuite, l'habitude est de déterminer la valeur de la loi du khi-deux à N-1 degrés de liberté ayant 5% de probabilité d'être dépassée. Ainsi, dans l'hypothèse où le phénomène étudié suit la loi théorique P, il y a donc 95% de probabilité cumulée que la variable D prenne une valeur inférieure à celle donnée par la loi du khi-deux.

Si la valeur de la loi du khi-deux obtenue à partir de l'échantillon prélevé est inférieure à celle correspondant aux 95% de probabilité cumulée, nous acceptons l'hypothèse selon laquelle le phénomène suit la loi P.

Remarques:

R1.  Le fait que l'hypothèse de la loi P soit acceptée ne signifie pas pour autant que cette hypothèse soit vraie, mais simplement que les informations données par l'échantillon ne permettent pas de la rejeter. De même, le fait que l'hypothèse de la loi P soit rejetée ne signifie pas nécessairement que cette hypothèse soit fausse mais que les informations données par l'échantillon conduisent plutôt à conclure à l'inadéquation d'une telle loi.

R2. Pour que la variable D suive une loi du khi-deux, il est nécessaire que les effectifs théoriques npi des différentes modalités Ci soient au moins égaux à 5, que l'échantillon soit tiré au hasard (pas d'autocorrélation) et qu'aucune des probabilités pi ne soit trop proche de zéro.

Ce test d'ajustement souffre cependant d'un gros défaut: il nécessite de regrouper les mesures dans des classes Ci et dans la pratique il n'existe pas de théorème absolu (du moins à ma connaissance) pour choisir le nombre de classes (et in extenso leur largeur). C'est cette raison qui fait que le test d'ajustement (conformité) du khi-deux est resérvé pour des distributions discrètes où le problème du choix des classes en se pose pas.

Il nous faudra cependant créer des tests d'ajustement qui ne nécessient pas l'utilisation de classes et nous verrons plus loin les outils ad hoc pour cela (test de Kolmogorov-Smirnov ou Anderson-Darling pour ne citer qu'eux).

Robustesse

Dans le domaine des statistiques inférentielles et tests d'hypothèses, la robustesse est un concept récurrent (les banques sont astreintes au stress testing de leurs modèles de risque). Nous en avons par ailleurs déjà fait mention plus haut...

Définitions:

D1. Un test est dit "test robuste" s'il reste valable alors que les hypothèses d'application ne sont pas toutes réunies. Ce peut être une taille d'échantillon un peu faible ou une loi de probabilité (loi normale pour les tests paramétriques) qui n'est pas très bien vérifiée. Par exemple, l'ANOVA est robuste par rapport à l'hypothèse de normalité mais pas par rapport à celle de l'homoscédasticité

D2. Un indicateur est dit "indicateur robuste" s'il est peu sensible à la présence d'outliers (le coefficient de corrélation, par exemple, n'est pas très robuste).

D3. Plus généralement, un modèle est dit "modèle robuste" lorsqu'il permet un prolongement des résultats (dans le temps ou pour une population). La robustesse s'applique aussi bien à une régression multiple qu'à une grille de score.

Par conséquent, à moins d’être uniquement descriptives, vos études devront respecter quelques règles pour que leurs conclusions soient généralisables.

Première condition d'une bonne robustesse: les données. Intuitivement, chacun sait qu'on ne transforme pas un cas en généralité (ce qui ne relèverait pas des statistiques mais des discussions de comptoir). Une quantité suffisante de données permet de bâtir des modèles fiables et solides. À titre d'exemple, des prévisions établies à partir d'une série chronologique montrant une saisonnalité nécessitent au moins trois ou quatre ans d'historique.

La quantité ne suffit pas, il faut la qualité. Mieux vaut s'abstenir que réaliser une étude sur des informations non fiables qui peuvent conduire à des décisions coûteuses. Par ailleurs, il convient d'éliminer ou d'imputer certaines observations (voir outliers). Si ce n'est pas possible, on se tourne vers des méthodes adaptées, par exemple celles qui utilisent la médiane plutôt que la moyenne.

Haut de page
STATISTIQUES (1/3) STATISTIQUES (3/3)

Noter cette page:
4.6666666666667 sur 5
Noté par 9 visiteur(s).
12345

 
   


W3C - HTMLW3C - CSS Firefox
Ce travail est dans le domaine public
2002-2012 Sciences.ch