loadingPage en cours de chargement
    ACCUEIL | TÉLÉCHARGER | QCM | DON | ANNONCES | CHAT | FORUM | LIVRE D'OR | PARTENAIRES | CONTACT | BLOG
 
  Rechercher
  separation
  Introduction
  Arithmétique
  Algèbre
  Analyse
  Géométrie
  Mécanique
  Électrodynamique
  Atomistique
  Cosmologie
  Chimie
  Informatique Théorique
  Maths. Sociales
  Ingénierie
  separation
  Biographies
  Références
  Liens
  separation
  Humour
  Serveur d'exercices
  separation
  Parrains
6 connectés
News News :: Erreur Erreur :: Statistiques Visiteurs :: ClearType ClearType :: Imprimer Imprimer :: Bookmark and Share

Arithmétique

THÉORIE DE LA DÉMONSTRATION | NOMBRES | OPÉRATEURS ARITHMÉTIQUES
THÉORIE DES NOMBRES | THÉORIE DES ENSEMBLES | PROBABILITÉS | STATISTIQUES

7. STATISTIQUES (2/3)

Dernière mise à jour de ce chapitre: 2017-01-31 10:12:32 | {oUUID 1.706}
Version: 3.10 Révision 59 | Avancement: ~90%
viewsvues depuis le 2012-01-01: 12'912

Table des matières LISTE DES SUJETS TRAITÉS SUR CETTE PAGE

ESTIMATEURS DE VRAISEMBLANCE

Ce qui va suivre est d'une extrême importance en statistiques et est utilisé énormément en pratique. Il convient donc d'y accorder une attention toute particulière! Outre le fait que nous utiliserons cette technique dans la présent chapitre, nous la retrouverons dans le chapitre de Méthodes Numériques pour les techniques avancées de régressions linéaires généralisées ainsi que dans le chapitre de Génie Industriel dans le cadre de l'estimation des paramètres de fiabilité.

Nous supposons que nous disposons d'observations equation qui sont des réalisations de variables aléatoires non biaisées (dans le sens qu'elles sont choisies aléatoirement parmi un lot) indépendantes equation de loi de probabilité inconnue mais identique.

Nous allons chercher à estimer cette loi de probabilité P inconnue à partir des observations equation.

Supposons que nous procédons par tâtonnements pour estimer la loi de probabilité P inconnue. Une manière de procéder est de se demander si les observations equation avaient une probabilité élevée ou non de sortir avec cette loi de probabilité arbitraire P

Nous devons pour cela calculer la probabilité conjointe qu'avaient les observations equation de sortir avec les probabilités equation. Cette probabilité conjointe vaut (cf. chapitre de Probabilités):

equation   (7.1)

en notant P la loi de probabilité supposée associée à equation. Il faut avouer qu'il serait alors particulièrement maladroit, au niveau de la notion intuitive de risque, de choisir une loi de probabilité (avec ses paramètres!) qui minimise cette quantité...

Au contraire, nous allons chercher les probabilités equation (ou les paramètres de la loi associée) qui maximisentequation, c'est-à-dire qui rende les observations equation le plus vraisemblable possible.

Nous sommes donc amenés à chercher le (ou les) paramètre(s) equation qui maximise(nt) la quantité:

equation   (7.2)

et où le paramètre equation est souvent dans les cas scolaires un moment d'ordre un (espérance) ou d'ordre deux (variance).

Cette quantité L porte le nom de "vraisemblance". C'est une fonction du ou des paramètres equation et des observations equation.

La ou les valeurs du paramètre equation qui maximisent la vraisemblance equation sont appelées "estimateurs du maximum de vraisemblance" (estimateur MV/EMV).

Dans le cas très particulier mais formateur de la loi Normale, un des paramètres equation sera donc la variance (voir un peu plus loin l'exemple concret) et il peut être considéré comme intuitif au physicien que pour maximiser la probabilité, l'écart-type doit être le plus petit possible (pour que le maximum d'évenements se trouve dans un même intervalle). Ainsi, lorsque nous calculons un EMV qui est le plus petit parmi plusieurs possibles, nous parlons alors d'estimateur UMV pour "Uniform Minimum Variance Unbiased" car leur propre variance doit être la plus petite possible. Cela se démontre (mais c'est peu élégant) en utilisant la définition de l'Information de Fisher et du théorème de Fréchet (ou de Rao-Cramer) qui fait usage de l'inégalité de Cauchy-Schwartz (cf. chapitre de Calcul Vectoriel) et de l'analogie entre espérance et produit scalaire... Cette démonstration ne sera pas présentée sur ce site Internet.

Faisons quand même cinq petits exemples (très classiques, utiles et importants dans l'industrie) avec dans l'ordre d'importance (donc pas forcément dans l'ordre de facilité...) la fonction de distribution de Gauss-Laplace (Normale), la fonction de distribution de Poisson, la distribution Binomiale (et in extenso Géométrique), la distribution de Weibull et finalement la distribution Gamma.

Remarque: Ces cinq exemples sont importants car utilisés dans les SPC (maîtrise statistiques de processus) dans différentes multinationales à travers le monde (cf. chapitre de Génie Industriel).

ESTIMATEURS DE LA DISTRIBUTION NORMALE

Soit equation un n-échantillon de variables aléatoires identiquement distribuées supposées suivre une loi de Gauss-Laplace (loi Normale) de paramètres equation et equation .

Nous recherchons quelles sont les valeurs des estimateurs du maximum de vraisemblance equation qui maximisent la vraisemblance equation de la loi Normale?

Remarque: Il va de soi que les estimateurs du maximum de vraisemblance equation sont ici:

equation   (7.3)

Nous avons démontré plus haut que la densité d'une variable aléatoire gaussienne était donnée par:

equation   (7.4)

La vraisemblance est alors donnée par:

equation   (7.5)

Maximiser une fonction ou maximiser son logarithme est équivalent donc la "log-vraisemblance" sera:

equation   (7.6)

Nous retrouvons par ailleurs souvent dans la littérature la notation:

equation   (7.7)

Pour déterminer les deux estimateurs de la loi Normale, fixons d'abord l'écart-type. Pour cela, dérivons  equation par rapport à equation et regardons pour quelle valeur de la moyenne la fonction s'annule.

Remarque: La dérivéer partielle que nous chercheons à annuler est souvent appelée la "fonction score":

equation   (7.8)

Il nous reste après simplification le terme suivant qui est égal à zéro:

equation   (7.9)

Ainsi, l'estimateur du maximum de vraisemblance de la moyenne (espérance) de la loi Normale est donc après réarrangement:

equation   (7.10)

et nous voyons qu'il s'agit simplement de la moyenne arithmétique (ou appelée aussi "moyenne empirique").

Fixons maintenant la moyenne. L'annulation de la dérivée de equation en equation conduit à:

equation   (7.11)

Ce qui nous permet d'écrire l'estimateur du maximum de vraisemblance pour l'écart-type (la variance lorsque la moyenne est connue selon la loi de distribution supposée elle aussi connue!):

equation   (7.12)

que certains appellent aussi "écart-type de Pearson"...

Cependant, nous n'avons pas encore défini ce qu'était un bon estimateur ! Ce que nous entendons par là:

- Si l'espérance d'un estimateur est égale à elle-même, nous disons que cet estimateur est "sans biais" et c'est bien évidemment ce que nous cherchons!

- Si l'espérance d'un estimateur n'est pas égale à elle-même, nous disons alors que cet estimateur est "biaisé" et c'est forcément moins bien...

Dans l'exemple précédent, la moyenne est donc non biaisée (trivial car la moyenne de la moyenne arithmétique est égale à elle-même). Mais qu'en est-il de la variance (in extenso de l'écart-type) ?

Un petit calcul simple par linéarité de l'espérance (puisque les variables aléatoires sont identiquement distribuées) va nous donner la réponse dans le cas où la moyenne théorique est approchée comme dans la pratique (industrie) par l'estimateur de la moyenne (cas le plus fréquent).

Nous avons donc le calcul de l'espérance de la "variance empirique":

equation   (7.13)

Or, comme les variables sont équidistribuées:

equation   (7.14)

Et nous avons (relation de Huyghens):

equation    (7.15)

ainsi que:

equation   (7.16)

où la deuxième relation ne peut s'écrire que parce que nous utilisons l'estimateur du maximum de vraisemblance de la moyenne (moyenne empirique). D'où:

equation   (7.17)

et comme:

equation et equation   (7.18)

Nous avons finalement:

equation   (7.19)

nous avons donc un biais de moins une fois l'erreur-standard:

equation   (7.20)

nous disons alors que cet estimateur à un biais négatif (il sous-estime la vraie valeur!).

Nous noterons également que l'estimateur tend vers un estimateur sans biais (E.S.B.) lorsque le nombre d'individus tend vers l'infini equation. Nous disons alors que nous avons un "estimateur asymptotiquement non biaisé" ou "estimateur asymptotiquement débiaisé".

Il est important de prendre note que nous avons démontré que la variance empirique tend vers la variance théorique quand n tend vers l'infini et ce... que les données suivent une loi Normale ou non!

Remarque: Un estimateur est aussi dit "estimateur consistant" s'il converge en probabilité, lorsque equation, vers la vraie valeur du paramètre.

De par les propriétés de l'espérance, nous avons alors:

equation   (7.21)

Il vient alors:

equation   (7.22)

que certains appellent aussi "écart-type standard"... (à ne pas confondre avec "l'erreur-standard" que nous verrons plus loin).

Nous avons donc finalement pour résumer les deux résultats importants suivants:

1. "L'estimateur du maximum de vraisemblance biaisé" ou appelé également "écart-type empirique" ou encore "écart-type échantillonnal" ou encore "écart-type de Pearson" ... et donc donné par:

equation  (7.23)

lorsque equation. Nous retrouvons cet écart-type suivant les contextes (par tradition) noté de cinq autres différentes façons qui sont:

equation   (7.24)

et même parfois (mais c'est très malheureux car cela génère alors souvent de la confusion avec l'estimateur non biaisé) equation ou S.

2. "L'estimateur du maximum de vraisemblance non biaisé" ou appelé également "écart-type standard" avec la "correction de Bessel" (le -1 au dénominateur est la correction en question...):

equation   (7.25)

qui comme nous le voyons est un estimateur convergent (quand n tend vers l'infini celui-ci tend vers l'estimateur du maximum de vraisemblance biaisé).

Nous retrouvons cet écart-type suivant les contextes (par tradition) noté de trois autres différentes façons qui sont:

equation   (7.26)

Nous retrouverons ces deux dernières notations souvent dans les tables et dans de nombreux logiciels et que nous utiliserons plus bas dans les développements des intervalles de confiance et des tests d'hypothèses!

Par exemple, dans la version française de de Microsoft Excel 11.8346 l'estimateur biaisé est donné par la fonction ECARTYPEP( ) et le non biaisé par ECARTTYPE( ).

Au total, cela nous fait donc trois estimateurs pour la même quantité!! Comme dans l'écrasante majorité des cas de l'industrie la moyenne théorique n'est pas connue, nous utilisons le plus souvent les deux dernières relations encadrées ci-dessus. Maintenant, c'est là que c'est le plus vicieux: lorsque nous calculons le biais des deux estimateurs, le premier est biaisé, le second ne l'est pas. Donc nous aurions tendance à n'utiliser que le second. Que nenni! Car nous pourrions aussi parler de la variance et de la précision d'un estimateur, qui sont aussi des critères importants pour juger de la qualité d'un estimateur par rapport à un autre. Si nous faisions le calcul de la variance des deux estimateurs, alors le premier, qui est biaisé, a une variance plus petite que le second qui est sans biais! Tout ça pour dire que le critère du biais n'est pas (et de loin) le seul à étudier pour juger de la qualité d'un estimateur.

Enfin, il est important de se rappeler que le facteur -1 du dénominateur de l'estimateur du maximum de vraisemblance non biaisé provient du fait qu'il fallait corriger l'espérance de l'estimateur biaisé à la base minoré de une fois l'erreur-standard!

ESTIMATEURS DE LA DISTRIBUTION DE POISSON

En utilisant la même méthode que pour la loi Normale (Gauss-Laplace), nous allons donc rechercher les estimateurs du maximum de vraisemblance de la loi de Poisson qui rappelons-le, est donnée par:

equation   (7.27)

Dès lors, la vraisemblance est donnée par:

equation   (7.28)

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.29)

Nous cherchons maintenant à la maximiser:

equation   (7.30)

et obtenons donc son unique estimateur du maximum de vraisemblance qui sera:

equation   (7.31)

Il est tout à fait normal de retrouver dans cet exemple didactique la moyenne empirique, car c'est le meilleur estimateur possible pour le paramètre de la loi de Poisson (qui représente aussi l'espérance d'une loi de Poisson).

Sachant que l'écart-type de cette distribution particulière (voir plus haut lors de notre développement de la loi de Poisson) n'est que la racine carrée de la moyenne, nous avons alors pour l'écart-type du maximum de vraisemblance:

equation   (7.32)

Remarque: Nous montrons de la même manière des résultats identiques pour la loi exponentielle très utilisée en maintenance préventive et fiabilité!

ESTIMATEUR DE LA DISTRIBUTION BINOMIALE (ET GÉOMÉTRIQUE)

En utilisant la même méthode que pour la loi Normale (Gauss-Laplace) et la loi de Poisson, nous allons donc rechercher l'estimateur du maximum de vraisemblance de la loi Binomiale qui rappelons-le, est donnée par:

equation   (7.33)

Dès lors, la vraisemblance est donnée par:

equation   (7.34)

Il convient de se rappeler que le facteur qui suit le terme combinatoire exprime déjà les variables successives selon ce que nous avons vu lors de notre étude de la fonction de distribution de Bernoulli et de la fonction binomiale. D'où la disparition du produit dans la dernière égalité précédente.

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.35)

Nous cherchons maintenant à la maximiser:

equation   (7.36)

Le lecteur aura peut-être remarqué que le coefficient binomial a disparu. Dès lors, nous en déduisons immédiatement que l'estimateur de la loi binomiale sera le même que celui de la loi géométrique.

Ce qui donne:

equation   (7.37)

d'où nous tirons l'estimateur du maximum de vraisemblance qui sera donc la simple moyenne empirique:

equation   (7.38)

Ce résultat est assez intuitif si l'on considère l'exemple classique d'une pièce de monnaie qui a une chance sur deux de tomber sur une de ces faces. La probabilité p étant le nombre de fois k où une face donnée a été observée sur le nombre d'essais total (toutes faces confondues).

Remarque: Dans la pratique, il n'est pas aussi simple d'appliquer ces estimateurs! Il faut bien réfléchir lesquels sont les plus adaptés à une expérience donnée et idéalement calculer également l'erreur quadratique moyenne (erreur-standard) de chacun des estimateurs de la moyenne (comme nous l'avons déjà fait pour la moyenne empirique plus tôt). Bref c'est un long travail de réflexion.

ESTIMATEURS DE LA DISTRIBUTION DE WEIBULL

Nous avons vu dans le chapitre de Génie Industriel une étude très détaillée de la loi de Weibull à trois paramètres avec son écart-type et son espérance car nous avions précisé qu'elle était assez utilisée dans le domaine de l'ingénierie de la fiabilité.

Malheureusement les trois paramètres de cette loi  nous sont en pratique inconnus. A l'aide des estimateurs nous pouvons cependant déterminer l'expression de deux des trois en supposant equation comme étant nul. Cela nous donne donc la loi de Weibull dite "loi de Weibull à deux paramètres" suivante:

equation   (7.39)

avec pour rappel equation et equation.

Dès lors la vraisemblance est donnée par:

equation   (7.40)

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.41)

Cherchons maintenant à maximiser cela en se rappelant que (cf. chapitre de Calcul Différentiel et Intégral):

equation et equation   (7.42)

d'où:

equation   (7.43)

Et nous avons pour le deuxième paramètre:

equation   (7.44)

d'où:

equation   (7.45)

Finalement avec les écritures correctes (et dans l'ordre de résolution dans la pratique):

equation et equation   (7.46)  

La résolution de ces équations implique de lourds calculs et nous ne pouvons a priori rien en tirer dans des tableurs classiques comme Microsoft Excel ou Calc de Open Office sans faire de la programmation.

On prend alors une approche différente en écrivant notre loi de Weibull à deux paramètres ainsi:

equation   (7.47)

avec pour rappel equation et equation.

Dès lors la vraisemblance est donnée par:

equation   (7.48)

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

equation   (7.49)

Cherchons maintenant à maximiser cela en se rappelant que (cf. chapitre de Calcul Différentiel et Intégral):

equation et equation   (7.50)

d'où:

equation   (7.51)

Et nous avons pour le deuxième paramètre:

equation   (7.52)

Il est alors immédiat que:

equation   (7.53)

injecté dans la relation:

equation   (7.54)

Il vient:

equation   (7.55)

en simplifiant:

equation   (7.56)

La résolution des deux équations (dans l'ordre de haut en bas):

equation   (7.57)

peut très facilement être calculée avec l'outil Valeur Cible de Microsoft Excel ou Calc de Open Office.

ESTIMATEURS DE LA DISTRIBUTION GAMMA

Nous allons utiliser ici une technique appelée "méthode des moments" pour déterminer les estimateurs des paramètres de la loi Gamma.

Supposons que X1, ..., Xn sont des variables aléatoires indépendantes et identiquement distribuées selon la loi Gamma avec pour densité:

equation   (7.58)

Nous cherchons à estimer equation. Pour cela, nous déterminons d'abord quelques moments théoriques.

Le premier moment est l'espérance qui comme nous l'avons démontré vaut:

equation   (7.59)

et le second moment, l'espérance du carré de la variable aléatoire, est comme nous l'avons démontré implicitement lors de la démonstration de la variance de la loi Gamma:

equation   (7.60)

Nous exprimons ensuite la relation entre les paramètres et les moments théoriques:

equation   (7.61)

La résolution donne:

equation   (7.62)

Une fois ce système établi, la méthode des moments consiste à utiliser les moments empiriques, en l'occurrence pour notre exemple les deux premiers, equation:

equation   (7.63)

que nous posons égaux aux moments théoriques vrais... Dès lors, il vient:

equation   (7.64)

FACTEUR DE CORRECTION SUR POPULATION FINIE

Maintenant démontrons un autre résultat qui nous sera indispensables dans certains tests statistiques que nous verrons plus loin.

Supposons que nous avons une population de N individus que nous représentons par l'ensemble  equation et une variable aléatoire X qui est donc une application de equation dans equation. Nous posons equation. La moyenne de X est alors donnée par:

equation   (7.65)

La variance de X est par définition:

equation   (7.66)

Considérons à présent l'ensemble E des échantillons equation de taille n  pris dans equation avec equation. Chaque individu a une probabilité d'être tiré égale à:

equation   (7.67)

Nous nous intéressons à la variable aléatoire equation  définie sur E et étant égale à la moyenne de l'échantillon. Plus précisément:

equation   (7.68)

Afin de calculer la variance equation, nous allons exprimer equation comme somme de variables aléatoires. En effet si nous définissons les variables equation avec equation par:

equation   (7.69)

Nous avons naturellement (donc de la par la définition précédente):

equation   (7.70)

et donc il vient:

equation   (7.71)

Les variables aléatoires equation ne sont pas indépendantes deux à deux, en effet comme nous allons le voir, leurs covariances ne sont pas nulles si N est fini. Dans le cas contraire (covariance nulle), nous retrouvons un résultat déjà démontré plus haut:

equation   (7.72)

Il nous faut donc calculer les variances equation et les covariances equation.

Pour ce faire nous allons utiliser la relation de Huyghens et nous allons commencer par calculer l'espérance equation:

equation   (7.73)

Or equation est la probabilité qu'un échantillon contienne k. Cette probabilité vaut bien évidemment  equation et par suite:

equation   (7.74)

De la même façon nous obtenons:

equation   (7.75)

Nous pouvons donc calculer la variance equation:

equation   (7.76)

Pour calculer les covariances avons à présent besoin de calculer les espérances equation:

equation   (7.77)

Or equation est la probabilité qu'un échantillon contienne i et j. Cette probabilité vaut bien évidemment:

equation   (7.78)

et par suite:

equation   (7.79)

Nous pouvons à présent calculer les covariances:

equation   (7.80)

Nous sommes maintenant en mesure de calculer equation:

equation   (7.81)

En utilisant le résultat démontré juste plus haut:

equation   (7.82)

et en l'injectant dans la relation de Huyghens:

equation   (7.83)

nous pouvons alors écrire:

equation   (7.84)

Pour la double somme equation, nous avons:

equation   (7.85)

Dès lors:

equation   (7.86)

Et donc:

equation   (7.87)

Le terme:

equation   (7.88)

que nous avons déjà rencontré lors de notre étude la loi hypergéométrique est appelé "facteur de correction sur population finie" et il a pour effet de réduire l'erreur-standard d'autant plus que n est grand.

INTERVALLES DE CONFIANCE

Jusqu'à maintenant nous avons toujours déterminé les différents estimateurs de vraisemblance ou estimateurs simples (variance, écart-type) à partir de lois (fonctions) statistiques théoriques ou mesurées sur toute une population de données.

Définition: Un "intervalle de confiance" est un couple de nombres qui définit (a posteriori) une plage de valeurs possibles avec une certaine probabilité cumulée pour un estimateur (ponctuel) d'un indicateur statistique donné par un échantillon d'une expérience (plage calculée le plus souvent à l'aide de paramètres vrais mesurés). Il s'agit du cas le plus fréquent en statistiques.

Nous allons maintenant aborder qui consiste à se demander assez naturellement quelles doivent être les tailles des échantillons de nos données mesureés pour avoir une certaine validité (intervalle de confiance I.C.) de nos estimateurs ou encore quel écart-type ou fractile dans une loi Normale centrée réduite (grand nombre d'individus), du Khi-deux, de Student ou de Fisher correspond un certain intervalle de confiance (nous verrons ces deux derniers cas de faibles échantillons dans la partie traitant de l'analyse de la variance ou ANOVA) lorsque la variance ou la moyenne est connue ou respectivement inconnue sur l'ensemble ou une partie de la population donnée.

Indiquons que ces intervalles de confiance utilisent souvent le théorème central limite démontré plus loin (afin d'éviter toute frustration) et que les développements que nous allons faire maintenant nous seront également utiles dans le domaine des Tests d'Hypothèses qui ont une place majeure en statistique!

Enfin, indiquons que de très nombreuses organisations (privées ou étatiques) font des statistiques fausses car les hypothèses et conditions d'utilisation de ces intervalles de confiance (et in extenso les tests d'hypothèses qui en découlent) ne sont pas rigoureusement vérifiées ou simplement omises ou pire encore, toute la base (les mesures) n'est pas collectée dans les règles de l'art (fiabilisation de la collecte de données par des protocoles scientifiques reproductibles et validés par les pairs).

Enfin, indiquons que de très nombreuses organisations (privées ou étatiques) font des statistiques fausses car les hypothèses et conditions d'utilisation ne sont pas rigoureusement vérifiées ou simplement omises ou pire encore, toute la base (les mesures) ne sont pas collectées dans les règles de l'art (fiabilisation de la collecte de données).

Remarque: Le praticien doit être très prudent quant à au calcul des intervalles de confiance et à l'utilisation des tests d'hypothèses dans la pratique. Raison pour laquelle, afin d'éviter toute erreur triviale d'utilisation ou d'interprétation, il est important de se référer aux normes suivantes par exemple: ISO 2602:1980 (Interprétation statistique de résultats d'essais - Estimation de la moyenne - Intervalle de confiance), ISO 2854:1976 (Interprétation statistique des données - Techniques d'estimation et tests portant sur des moyennes et des variances), ISO 3301:1975 (Interprétation statistique des données - Comparaison de deux moyennes dans le cas d'observations appariées), ISO 3494:1976 (Interprétation statistique des données -- Efficacité des tests portant sur des moyennes et des variances), ISO 5479:1997 (Interprétation statistique des données - Tests pour les écarts à la distribution normale), ISO 10725:2000 + ISO 11648-1:2003 + ISO 11648-2:2001 (Plans et procédures d'échantillonnage pour acceptation pour le contrôle de matériaux en vrac), ISO 11453:1996 (Interprétation statistique des données - Tests et intervalles de confiance portant sur les proportions), ISO 16269-4:2010 (Interprétation statistique des données - Détection et traitement des valeurs aberrantes), ISO 16269-6:2005 (Interprétation statistique des données - Détermination des intervalles statistiques de tolérance), ISO 16269-8:2004 (Interprétation statistique des données - Détermination des intervalles de prédiction), ISO/TR 18532:2009 (Lignes directrices pour l'application des méthodes statistiques à la qualité et à la normalisation industrielle).

I.C. SUR LA MOYENNE AVEC VARIANCE THÉORIQUE CONNUE

Commençons par le cas le plus simple et le plus courant qui est la détermination du nombre d'individus pour avoir une certaine confiance dans la moyenne des mesures effectuées d'une variable aléatoire supposée suivre une loi Normale.

D'abord rappelons que nous avons démontré au début de ce chapitre que l'erreur-type (écart-type à la moyenne) était sous l'hypothèses de variables indépendantes et identiquement distribuées (i.i.d.):

equation   (7.89)

Maintenant, avant d'aller plus loin, considérons X comme une variable aléatoire suivant une loi Normale de moyenne equation et d'écart-type equation. Nous souhaiterions que la variable aléatoire ait par exemple 95% de probabilité cumulée de se trouver dans un intervalle symétrique borné donné. Ce qui s'exprime donc sous la forme suivante:

equation   (7.90)

Remarque: Donc avec un intervalle de confiance de 95% vous aurez raison 19 fois sur 20, ou n'importe quel autre niveau de confiance ou niveau de risque equation (1-niveau de confiance, soit 5%) que vous vous serez fixé à l'avance. En moyenne, vos conclusions seront donc bonnes, mais nous ne pourrons jamais savoir si une décision particulière est bonne! Si le niveau de risque est très faible mais que l'événement a quand même lieu, les spécialistes parlent alors de "grande déviation" ou de "black swan" (cygne noir). La gestion des valeurs aberrantes est traitée dans la norme ISO 16269-4:2010 Détection et traitement des valeurs aberrantes que tout ingénieur faisant des statistiques en entreprise se doit de respecter.

En centrant et réduisant la variable aléatoire:

equation   (7.91)

Notons maintenant Y la variable centrée réduite:

equation   (7.92)

Puisque la loi Normale centrée réduite est symétrique:

equation   (7.93)

D'où:

equation   (7.94)

A partir de là en lisant dans les tables numériques de la loi Normale centrée réduite (ou en utilisant un simple tableur), nous avons pour satisfaire cette égalité que:

equation   (7.95)

Ce qui s'obtient facilement avec la version anglaise de Microsoft Excel 11.8346 en utilisant la fonction: -NORMSINV((1-0.95)/2).

Donc:

equation   (7.96)

Ce qui est noté de façon traditionnelle dans le cas général autre que 95% par (Z étant la variable aléatoire correspondant donc à la moitié du quantile du seuil fixé de la loi Normale centrée réduite):

equation   (7.97)

Or, considérons que la variable X sur laquelle nous souhaitons faire de l'inférence statistique est justement la moyenne (et nous démontrerons plus loin que celle-ci suit une loi Normale centrée réduite). Dès lors:

equation   (7.98)

Nous en tirons la taille de l'échantillon:

equation   (7.99)

dont nous prenons évidemment (normalement...) la valeur entière supérieure…

Cette dernière notation est plus souvent écrite sous la forme suivante mettant mieux en évidence la largeur de l'intervalle de confiance à un niveau equation sous-jacent:

equation   (7.100)

Relation appelée "effectif de l'échantillon pour estimation par loi Normale".

Ainsi, nous pouvons maintenant savoir le nombre d'individus à avoir pour s'assurer un intervalle de précision equation (marge d'erreur) autour de la moyenne et pour qu'un pourcentage donné des mesures se trouvent dans cet intervalle et en supposant l'écart-type théorique equation  connu (ou imposé) d'avance (typiquement utilisé dans l'ingénierie de la qualité ou les instituts de sondages/enquêtes).

Dans le cas des sondages/enequêtes où la population n'est pass assez grande pour considéréer que nous avons un échantillonnage avec remise, nous parlons devons alors introduire la facteur fpc que nous avons démontré plus haut (nous parlons alors dans PSSR pour "plan de sondage sans remise"). Il vient alors:

equation   (7.101)

Autrement dit, nous pouvons calculer le nombre n d'individus à mesurer pour s'assurer un intervalle de confiance donné (associé à Z) de la moyenne mesurée en supposant l'écart-type théorique connu (ou imposé) et en souhaitant un précision de equation en valeur absolue sur la moyenne.

Cependant... en réalité, la variable Z provient du théorème central limite (voir plus bas) qui donne pour un échantillon de grande taille (approximativement):

equation   (7.102)

En réarrangeant nous obtenons:

equation   (7.103)

et comme Z peut être négatif ou positif alors il est plus censé d'écrire cela sous la forme:

equation   (7.104)

Soit:

equation   (7.105)

que les ingénieurs notent parfois:

equation   (7.106)

avec LCL étant la lower confidence limit et UCL la upper confidence limit. C'est de la terminologie Six Sigma (cf. chapitre de Génie Industriel).

Et nous venons de voir plus avant que pour avoir un intervalle de confiance à 95% nous devrions avoir Z=1.96. Et puisque la loi Normale est symétrique:

equation   (7.107)

Cela se note finalement:

equation   (7.108)

Comme nous l'avons déjà mentionné, et nous le démontrerons un peu plus loin, la moyenne arithmétique centrée réduite d'une séries de variables aléatoires indépendantes et identiquement distribuées de variance fini suit asymptotiquement une loi Normale centrée réduite, alors l'intervalle de confiance ci-dessus a une portée très générale! Raison pour laquelle nous parlons parfois de "d'intervalle de confiance asymptotique de la moyenne".

Ces intervalles ont évidemment pour origine que nous travaillons très souvent en statistiques sur des échantillons et non sur toute la population disponible. L'échantillonage choisi influe donc sur l'estimateur ponctuel. Nous parlons alors de "fluctuation d'échantillonage".

Dans le cas particulier d'un I.C. (intervalle de confiance) à 95%, la dernière relation s'écrit:

equation   (7.109)

Parfois nous retrouvons l'inégalité antéprécédente sous la forme équivalente suivante:

equation   (7.110)

ou encore plus rarement sous la forme générale suivante (que l'on retrouve pour toutes les intervalles):

equation   (7.111)

ME signifie "marge d'erreur".

Nous sommes ainsi capables maintenant d'estimer des tailles de population nécessaires à obtenir un certain niveau de confiance equation dans un résultat, soit d'estimer dans quel intervalle de confiance se trouve la moyenne théorique en connaissant la moyenne expérimentale (empirique) et l'estimateur du maximum de vraisemblance de l'écart-type. Nous pouvons bien évidemment dès lors aussi déterminer la probabilité avec laquelle la moyenne est en dehors d'un certain intervalle... (l'un comme l'autre étant beaucoup utilisés dans l'industrie).

Enfin, signalons que du résultat précédent, nous déduisons immédiatement par la propriété de stabilité de la loi Normale (démontrée plus haut) le test suivant que nous retrouvons dans de très nombreux logiciels de statistiques:

equation   (7.112)

appelé "test Z bilatéral sur la différence de deux moyennes" avec l'intervalle de confiance correspondant:

equation   (7.113)

Et ce n'est pas parce que deux moyennes sont significativement différentes que leurs intervalles de tolérance ne se superposent pas! Comme le montre le graphique ci-dessous obtenu avec le logiciel Minitab 16 où le test-Z de la différence est significative à 95%:

equation
Figure: 7.1 - Illustration de la superposition d'intervalle de tolérance à 95%

alors que leur moyenne est significativement différente à un seuil de confiance de 95%.

Remarque: La taille de la population mère pour les relations développées plus haut n'entre pas en ligne de compte dans le calcul des intervalles de confiance ni dans celui de la taille de l'échantillon, et pour cause, elle est considérée infinie. Il faut donc faire attention à ne pas avoir parfois des tailles d'échantillons qui sont plus grandes que la population mère réelle possible...

I.C. SUR LA VARIANCE AVEC MOYENNE THÉORIQUE CONNUE

Commençons par démontrer une propriété fondamentale de la loi du Khi-deux:

Si une variable aléatoire X suit une loi Normale centrée réduite equation alors son carré suit une loi du Khi-deux de degré de liberté 1:

equation   (7.114)

Ce résultat est parfois appelé "statistique de Wald" et tout test statistique l'utilisant directement (on devrait plutôt parler de "famille de tests") peut être rangé sous la dénomination de "test de Wald" (pour un exemple concret voir le test de Cochran–Mantel–Haenszel dans le chapitre de Méthodes Numériques).

Démonstration:

Pour démontrer cette propriété, il suffit de calculer la densité de la variable aléatoire equation avec equation. Or, si equation et si nous posons equation, alors pour tout equation nous obtenons:

equation   (7.115)

Puisque la loi Normale centrée réduite est symétrique par rapport à 0 pour la variable aléatoire X, nous pouvons écrire:

equation   (7.116)

En notant equation la fonction de répartition de la loi Normale centrée réduite (sa probabilité cumulée en d'autres termes pour rappel...), nous avons:

equation   (7.117)

et comme:

equation   (7.118)

alors:

equation   (7.119)

La fonction de répartition de la variable aléatoire (probabilité cumulée) equation est donc donnée par:

equation   (7.120)

si y est supérieur ou égal à zéro, nulle si y inférieur à zéro. Nous noterons cette répartition equation pour la suite des calculs.

Puisque la fonction de distribution est la dérivée de la fonction de répartition et que X suit une loi Normale centrée réduite alors nous avons pour la variable aléatoire X:

equation   (7.121)

et il s'ensuit pour la loi de distribution de Y  (qui est donc le carré de X pour rappel!):

equation   (7.122)

cette dernière expression correspond exactement à la relation que nous avions obtenue lors de notre étude de la loi du Khi-deux en imposant un degré de liberté unité.

Le théorème est donc bien démontré, à savoir que si X suit une loi Normale centrée réduite alors son carré suit une loi du Khi-deux à 1 degré de liberté tel que:

equation   (7.123)

equationC.Q.F.D.

Ce type de relation est utilisé dans les processus industriels et leur contrôle (cf. chapitre de Génie Industriel).

Nous allons maintenant utiliser un résultat démontré lors de notre étude de la loi Gamma. Nous avons effectivement vu plus haut que la somme de deux variables aléatoires suivant une loi Gamma suit aussi une loi Gamma dont les paramètres s'additionnent:

equation   (7.124)

Comme la loi du Khi-deux n'est qu'un cas particulier de la loi Gamma, le même résultat s'applique.

Pour être plus précis, cela revient à dire:

Si equation sont des variables aléatoires indépendantes (!) et identiquement distribuées N(0,1) alors par extension de la démonstration précédente où nous avons montré que:

equation   (7.125)

et de la propriété d'addition de la loi Gamma, la somme de leurs carrés suit alors une loi du Khi-deux de degrés de liberté k telle que:

equation   (7.126)

Ainsi, la loi du equation à k degrés de liberté est la loi de probabilité de la somme des carrés de k variables normales centrées réduites linéairement indépendantes entre elles. Il s'agit de la propriété de linéarité de la loi du Khi-deux (implicitement de la linéarité de la loi Gamma)!

Maintenant voyons une autre propriété importante de la loi du Khi-deux: Si equation sont des variables aléatoires indépendantes et identiquement distribuées equation (donc de même moyenne et même écart-type et suivant une loi Normale) et si nous notons l'estimateur du maximum de vraisemblance de la variance:

equation   (7.127)

alors, le rapport de la variable aléatoire equation sur l'écart-type supposé connu de l'ensemble de la population (dit "écart-type vrai" ou "écart-type théorique" pour bien différencier!) multiplié par le nombre d'individus n de la population suit une loi du Khi-deux de degré n telle que:

equation   (7.128)

Ce résultat est appelé "théorème de Cochran" ou encore "théorème de Fisher-Cochran" (dans le cas particulier d'échantillons gaussiens) et nous donne donc une distribution pour les écarts-types empiriques (dont la loi parente est une loi Normale).

En utilisant la valeur de l'écart-type démontrée lors de notre étude da la loi du khi-deux nous avons donc:

equation   (7.129)

Mais n et equation sont imposés et sont donc considérés comme des constantes. Il vient alors:

equation   (7.130)

Et dès lors nous avons une expression de l'écart-type de l'écart-type empirique si nous connaissons l'écart-type de la population:

equation   (7.131)

Mais nous avons démontré lors de notre étude des estimateurs que:

equation   (7.132)

Dès lors il vient que:

equation   (7.133)

Il en découle donc la relation parfois importante dans la pratique de l'estimateur de l'écart-type de.... l'écart-type:

equation   (7.134)

Rappelons que la population parente est dite "infinie" si le tirage de l'échantillon est avec remise ou encore si la taille N de la population parente est très supérieure à celle de n de l'échantillon.

Remarques:

R1. En laboratoire, les equation peuvent être vues comme une classe d'individus d'un même produit étudié identiquement par différentes équipes de recherche avec des instruments de même précision (écart-type de mesure identique).

R2. equation est la "variance interclasse" également appelée "variance expliquée". Donc elle donne la variance d'une mesure ayant eu lieu dans les différents laboratoires.

Ce qui est intéressant c'est qu'à partir du calcul de la loi du Khi-deux en connaissant n et l'écart-type equation il est possible d'estimer cette variance (écart-type) interclasse.

Pour voir que cette dernière propriété est une généralisation élémentaire de la relation:

equation   (7.135)

il suffit de constater que la variable aléatoire equation est une somme de n carrés de N(0,1) indépendants les uns des autres. Effectivement, rappelons qu'une variable aléatoire centrée réduite (voir notre étude de la loi Normale) est donnée par:

equation   (7.136)

Dès lors:

equation   (7.137)

Or, puisque les variables aléatoires equation sont indépendantes et identiquement distribuées selon une loi Normale, alors les variables aléatoires:

equation   (7.138)

sont aussi indépendantes et identiquement distribuées mais selon une loi Normale centrée réduite.

Puisque:

equation   (7.139)

en réarrangeant nous obtenons:

equation   (7.140)

Donc sur la population de mesures, l'écart-type vrai suit la relation donnée ci-dessus. Il est donc possible de faire de l'inférence statistique sur l'écart-type lorsque la moyenne théorique est connue (...).

Puisque la fonction du Khi-deux n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors l'intervalle de confiance à 95% (par exemple...) de la manière suivante:

equation   (7.141)

Soit en notant equation:

equation   (7.142)

le dénominateur étant alors bien évidemment le quantile de la loi du khi-2. Cette relation est rarement utilisée dans la pratique car la moyenne théorique n'est pas connue. Indiquons, aussi, qu'afin d'éviter toute confusion, cette dernière relation est souvent notée sous la forme suivante:

equation   (7.143)

Voyons donc le cas le plus courant:

I.C. SUR LA VARIANCE AVEC MOYENNE EMPIRIQUE

Cherchons maintenant à faire de l'inférence statistique lorsque la moyenne théorique de la population equation n'est pas connue. Pour cela, considérons maintenant la somme:

equation   (7.144)

où pour rappelequationest la moyenne empirique (arithmétique) de l'échantillon:

equation   (7.145)

En continuant le développement nous avons:

equation
  (7.146)

Or, nous avons démontré au début de ce chapitre que la somme des écarts à la moyenne était nulle. Donc:

equation
  (7.147)

et reprenons l'estimateur sans biais de la loi Normale (nous changeons de notation pour respecter les traditions et bien différencier la moyenne empirique de la moyenne théorique):

equation   (7.148)

Dès lors:

equation   (7.149)

ou autrement écrit:

equation   (7.150)

Puisque le deuxième terme (au carré) suit une loi Normale centrée réduite aussi, alors si nous le supprimons nous obtenons de par la propriété démontrée plus haut de la loi du Khi-deux:

equation   (7.151)

Ces développements nous permettent cette fois-ci de faire aussi de l'inférence sur la variance equation d'une loi equation lorsque les paramètres equation et equation sont tous les deux inconnus pour l'ensemble de la population. C'est ce résultat qui nous donne, par exemple, l'intervalle de confiance:

equation   (7.152)

lorsque la moyenne théorique equation est donc inconnue. Et à aussi, pour éviter tout confusion, il est plutôt d'usage d'écrire:

equation   (7.153)

De la même manière que plus haut, nous pouvons calculer l'écart-type de l'écart-type et qui a une grande importance dans la pratique de la finance:

equation   (7.154)

I.C. SUR LA MOYENNE AVEC VARIANCE EMPIRIQUE CONNUE

Nous avons démontré beaucoup plus haut que la loi de Student provenait de la relation suivante:

equation   (7.155)

si Z et U sont des variables aléatoires indépendantes et si Z suit une loi Normale centrée réduite N(0,1) et U une loi du Khi-deux equation tel que:

equation   (7.156)

et rappelons que la fonction de densité (distribution) est symétrique!

Voici une application très importante du résultat ci-dessus:

Supposons que equation constituent un échantillon aléatoire de taille n issu de la loi equation. Alors nous pouvons déjà écrire que selon les développements faits plus haut:

equation   (7.157)

Et pour U qui suit une loi equation, si nous posons equation alors selon les résultats obtenus plus haut:

equation   (7.158)

Nous avons alors après quelques simplifications triviales:

equation   (7.159)

Donc puisque:

equation   (7.160)

suit une loi de Student de paramètre k alors nous obtenons le "independant one-sample t-test" (en anglais) ou "test-T à 1 échantillon":

equation   (7.161)

qui suit aussi une loi de Student de paramètre n-1 et qui est très utilisé dans les laboratoires pour les tests d'étalonnages.

Ce qui nous donne aussi après réarrangement:

equation   (7.162)

Ce qui nous permet de faire de l'inférence sur la moyenne equation d'une loi Normale d'écart-type théorique inconnu (sous-entendu qu'il n'y a pas assez de valeurs expérimentales) mais dont l'estimateur sans biais de l'écart-type est connu. C'est ce résultat qui nous donne l'intervalle de confiance:

equation   (7.163)

où nous retrouvons les mêmes indices que pour l'inférence statistique sur la moyenne (espérance) d'une variable aléatoire d'écart-type (théorique) connu puisque la loi de Student tend asymptotiquement pour de grandes valeurs de n vers une loi Normale. Ainsi, l'intervalle précédent et l'intervalle suivant:

equation   (7.164)

donneront des valeurs très proches (à la troisième décimale) pour des grandeurs de n aux alentours des 10'000 (dans la pratique on considère qu'à partir de 100 c'est identique...).

Nous déduisons immédiatement par la propriété de stabilité de la loi du Khi-deux (démontrée plus haut par le fait qu'elle découle de la loi Gamma) le test suivant que nous retrouvons dans de très nombreux logiciels de statistiques:

equation   (7.165)

appelé "test-T (de Student) bilatéral sur la différence de deux moyennes" (rigoureusement... sommer les degrés de liberté comme nous venons de le faire n'est valable que si les deux variances sont égales et nous démontrerons le cas général où les variances ne sont pas égales lors de la démonstration du test de Welch plus loin).

Nous pouvons bien évidemment dès lors aussi déterminer la probabilité avec laquelle la moyenne est dedans ou en dehors d'un certain intervalle... (l'une comme l'autre étant beaucoup utilisées dans l'industrie).

Le lecteur pourra s'amuser à contrôler avec la version française de Microsoft Excel 11.8346 que pour un grand nombre de mesures n, la loi de Student tend vers la loi Normale centrée réduite en comparant les valeurs des deux fonctions ci-dessous:

=LOI.STUDENT.INVERSE.N(5%/2;n-1)
=LOI.NORMALE.STANDARD.INVERSE.N(5%/2)

Remarque: Le résultat précédent fut obtenu par William S. Gosset aux alentours de 1910. Gosset qui avait étudié la mathématique et la chimie, travaillait comme statisticien pour la brasserie Guinness en Angleterre. À l'époque, on savait que si equation sont des variables aléatoires indépendantes et identiquement distribuées alors:

equation   (7.166)

Toutefois, dans les applications statistiques on s'intéressait bien évidemment plutôt à la quantité:

equation   (7.167)

On se contentait alors de supposer que cette quantité suivait à peu près une loi Normale centrée réduite ce qui n'était pas une mauvaise approximation comme le montre l'image ci-dessous (equation):

equation
Figure: 7.2 - Comparaison entre la fonction de distribution Normale et celle de Student

Suite à de nombreuses simulations, Gosset arriva à la conclusion que cette approximation était valide seulement lorsque n est suffisamment grand (donc cela lui donnait l'indication comme quoi il devait y avoir quelque part derrière le théorème central limite). Il décida de déterminer l'origine de la distribution et après avoir suivi un cours de statistique avec Karl Pearson il obtint son fameux résultat qu'il publia sous le pseudonyme de Student. Ainsi, on appelle loi de Student la loi de probabilité qui aurait dû être appelée la loi ou fonction de Gosset.

Signalons enfin que le test de Student est aussi très utilisé pour identifier si des variations (progressions ou l'inverse) de la moyenne des chiffres de deux populations identiques sont statistiquement significatives. C'est-à-dire que si la taille de deux échantillons dépendants est identique alors nous pouvons créer le test suivant (nous avons indiqué tous les différents types d'écritures que l'on peut retrouver dans la littérature et dans les nombreux logiciels implémentant ce test):

equation   (7.168)

Avec:

equation   (7.169)

La relation antéprécédente est donc très utile pour comparer deux fois le même échantillon dans des situations différentes de mesure (ventes avant ou après rabais d'un article par exemple). La relation antéprécédente est appelée "test-T (de Student) de deux moyennes d'échantillons appariés (ou échantillons dépendants)" ou plus simplement "test-T de Student pour échantillons appariés".

Définition: Nous parlons "d'échantillons appariés" (par paires) si les échantillons de valeurs sont prises 2 fois sur les mêmes individus (donc les valeurs des paires ne sont pas indépendantes, contrairement à deux échantillons pris indépendamment).

TEST BINOMIAL EXACT

Il arrive fréquemment lors de mesures que l'on souhaite comparer si deux échantillons de petite taille pris au hasard (sans remise!) d'une population elle aussi petite... sont statistiquement significativement différents ou non alors que l'on attendait une égalité parfaite!

Nous cherchons donc un test adapté aux cas suivants:

- Savoir si un échantillon d'une population préfère utiliser une technique de travail plutôt qu'une autre alors que l'on s'attend à ce que la population utilise autant l'une que l'autre

- Savoir si un échantillon d'une population a une caractéristique prédominante parmi deux possibilités alors que l'on s'attend à ce que la population soit parfaitement équilibrée

Avant d'aller plus en détails, rappelons qu'il faut être extrêmement prudent quant à la manière d'obtenir les deux échantillons. Il faut que l'expérience soit non biaisée, cela signifie pour rappel, que le protocole de tirage ne doit en aucun cas avantager l'une au l'autre des caractéristiques de la population (si vous étudiez l'équilibre homme/femme dans une population en attirant dans le sondage des personnes grâce à un cadeau sous la forme de bijoux ou en appelant pandans les jours ouvrés vous aurez alors un échantillon biaisé... car vous aurez probablement naturellement plus de femmes que d'hommes...).

Ceci étant dit, cette situation correspond donc à une loi binomiale pour laquelle nous avons démontré plus haut dans ce chapitre que la probabilité de k réussites pour une population de taille N dont la probabilité de réussite est p (et la probabilité d'échec q donc de 1 - p) était donnée par la relation:

equation   (7.170)

Dans le cas qui nous intéresse, nous avons donc equation:

equation   (7.171)

tout en se rappelant que la distribution ne sera pas pour autant symétrique et ce surtout si la taille N de la population est petite.

Si nous notons maintenant x le nombre de réussites (considéré comme la taille du premier échantillon) et y le nombre d'échecs (considéré comme la taille du deuxième échantillon), nous avons alors:

equation   (7.172)

Ceci étant fait, pour construire le test et de par l'asymétrie de la distribution, nous allons calculer la probabilité cumulée que k soit plus petit que le x obtenu par l'expérience et la sommer à la probabilité cumulée pour que k soit plus grand que le y obtenu par l'expérience (ce qui correspond à la probabilité cumulée des queues respectivement gauche et droite de la distribution). Cette somme correspond donc à la probabilité:

equation   (7.173)

et cette dernière relation est appelée "test binomial exact (bilatéral)".

Si la probabilité P obtenue pour la somme est au-dessus d'une certaine probabilité cumulée fixée à l'avance, nous dirons alors que la différence avec un échantillon tiré au hasard dans une population parfaitement équilibrée n'est pas statistiquement significative (en bilatéral...) et respectivement si elle est en-dessous, la différence sera donc statistiquement significative et nous rejetterons l'équilibre supposé.

Ainsi,si:

equation   (7.174)

la différence par rapport à une population équilibrée sera considérée comme non statistiquement significative. Souvent on prendra au maximum equation comme valant 5% (mais rarement en-dessous) ce qui correspond donc à un intervalle de confiance de 95%.

Malheureusement d'un logiciel de statistiques à l'autre les paramètres demandés ou les résultats obtenus ne seront pas nécessairement les mêmes (les tableurs n'intègrent pas de fonction spécifique pour le test binomial, il faudra souvent construire un tableau ou programmer soi-même la fonction). Par exemple, certains logiciels calculent systématiquement et imposent (ce qui est assez logique dans un sens...):

equation   (7.175)

exempleExemple:

D'une petite population ayant deux caractéristiques x et y particulières qui nous intéressaient et pour laquelle nous nous attendions à avoir un parfait équilibre tel que equation mais nous avons en réalité obtenu equation et equation. Nous souhaiterions faire le calcul avec Microsoft Excel 11.8346 pour savoir si cette différence est statistiquement significative ou non à un niveau de 5%?

Pour répondre à cette question, nous allons donc calculer la probabilité cumulée:

equation   (7.176)

ce qui nous donne:

equation
Figure: 7.3 - Valeurs du calcul des coefficients binomiaux dans Microsoft Excel 11.8346

soit explicitement:

equation
Figure: 7.4 - Formules du calcul des coefficients binomiaux dans Microsoft Excel 11.8346

donc la probabilité cumulée étant de 0.774 (soit 77.4%) la différence par rapport à une population équilibrée sera considérée donc comme non statistiquement significative.

Remarque: Ce test est également utilisé par la majorité des logiciels de statistiques (comme Minitab) pour donner un intervalle de confiance de la conformité d'opinions par rapport à celle d'un expert. C'est ce que nous appelons une étude R&R (reproductabilité & répétabilité) par attributs (voir mon livre sur Minitab pour un exemple).

I.C. POUR UNE PROPORTION

Indiquons que certains statisticiens utilisent le fait que la loi Normale découle de la loi de Poisson qui elle-même découle de la loi Binomiale (nous l'avons démontré lorsque n tend vers l'infini et que p et q sont du même ordre) pour faire un intervalle de confiance dans le cadre de l'analyse de proportions (très utilisé dans l'analyse de la qualité dans les industries).

Pour voir cela, notons equation la variable aléatoire définie par:

equation   (7.177)

où l'attribut A peut être la propriété "défectueux" ou "non défectueux" par exemple pour une analyse de pièces. Nous noterons k le nombre de réussites de l'attribut A.

La variable aléatoire equation nous l'avons démontré au début de ce chapitre, suit une loi Binomiale de paramètres n et p avec les moments:

equation   (7.178)

Ceci étant, nous ne connaissons pas la valeur vraie de p. Nous allons donc utiliser l'estimateur de la loi Binomiale démontré plus haut:

equation   (7.179)

D'après les propriétés de l'espérance nous avons alors:

equation   (7.180)

Et nous avons d'après les propriétés de la variance, la relation suivante pour la variance de la moyenne empirique de la proportion:

equation   (7.181)

Ce qui nous amène alors à:

equation et equation   (7.182)

Maintenant rappelons enfin que nous avons démontré que la loi Normale découlait de la loi Binomiale sous certaines conditions (les praticiens admettent que c'est applicable tant que n>50 et equation ). Autrement dit, que la variable aléatoire X suivant une loi Binomiale suit une loi Normale sous certaines conditions. Évidemment, si X suit une loi Normale alors X/n aussi (et donc equation...). Dès lors nous pouvons centrer et réduire equation afin qu'il se comporte comme la variable aléatoire Normale centrée réduite notée Z:

equation   (7.183)

exempleExemples:

E1. Si 5% de la production annuelle d'une entreprise est défectueuse, quelle est la probabilité qu'en prenant un échantillon de 75 pièces de la ligne de production que seulement 2% ou moins soit défectueux?

Nous avons dès lors avec:

equation   (7.184)

La probabilité cumulée correspondante à cette valeur de la variable aléatoire est avec la version anglaise de Microsoft Excel 11.8346:

=NORMSDIST(-1.19)=11.66%

Mais remarquez que nous n'avons pas equation qui est satisfait donc normalement il est exclu d'utiliser ce résultat.

E2. Dans son rapport de 1998, la banque J.P. Morgan a expliqué que durant l'année 1998 ses pertes allèrent au-delà de la Value at Risk (cf. chapitre d'Économie) 20 jours sur les 252 jours ouvrés de l'année en se basant sur une VaR temporelle de 95% (donc 5% des journées ouvrées considérées comme à perte). Au seuil de 95% est-ce de la malchance ou est-ce que le modèle de VaR utilisé était mauvais?

equation   (7.185)

Donc c'était juste de la malchance.

Nous pouvons maintenant approximer l'intervalle de confiance pour la proportion en se basant sur la loi Binomiale et son comportement asymptotiquement Normal dans les conditions démontrées lors de notre introduction de la loi Normale tel que nous avons le "test Z à une proportion" ou "test p à une proportion" (dans le marketing appelée "test A/B"):

equation   (7.186)

Avant de passer à un exemple, il est peut-être utile de préciser au lecteur que cette approximation par une loi Normale est très courante et que nous allons la rencontrer encore de nombreuse fois dans les démonstrations qui vont suivre. C'est tellement courant qu'on a même donné un nom à cette méthode...: la "méthode de Wald" (bon en réalité il y a plusieurs méthodes de Wald mais c'est la plus connue que nous utiliserons à chaque fois).

exempleExemple:

Prenons equation, nous avons alors:

equation   (7.187)

Sur une production de 300 éléments nous en avons trouvé 8 qui étaient défectueux. Quel est donc l'intervalle de confiance?

Nous vérifions d'abord avec:

equation   (7.188)

que:

equation   (7.189)

Donc il est acceptable d'utiliser l'intervalle de confiance par la loi Normale. Nous avons dès lors:

equation   (7.190)

Pour clore ce sujet, nous pouvons évidemment nous intéresser aussi au nombre d'individus (taille d'échantillon) qu'il faut avoir pour satisfaire une certaine précision d'intervalle de confiance (imposé) en ayant un écart-type imposé.

Nous avons donc selon les hypothèses susmentionnées et dans l'acceptation de l'approximation par une loi Normale que:

equation   (7.191)

Et en procédant de manière identique aux développements effectués plus haut avec la loi Normale, nous obtenons:

equation   (7.192)

dont nous prenons évidemment normalement la valeur entière supérieure dans la pratique...

Einfin, faisons une petite excursion dans la théorie des sondages/enquêtes par rapport à une relation que nous retrouvont souvent dans la littérature spécialisée. Si la taille de la population est petite telle que le système ne peut pas être considéré avec remise, nous utilisons alors le facteur fpc démontré plus tôt. Nous avons alors:

equation   (7.193)

Soit:

equation   (7.194)

Une question qui revient souvent dans la pratique concerne le fait de savoir s'il faut appliquer ce test en unilatéral ou bilatéral. Au fait il n'y a pas de réponse précise, tout dépend de ce que nous cherchons à mettre en évidence.

Remarque: La taille de la population mère pour les relations développées plus haut n'entre pas en ligne de compte dans le calcul des intervalles de confiance ni dans celui de la taille de l'échantillon, et pour cause, elle est considérée infinie. Il faut donc faire attention à ne pas avoir parfois des tailles d'échantillons qui sont plus grandes que la population mère réelle possible...

exempleExemple:

Nous souhaiterions savoir le nombre d'individus (taille d'échantillon) à prendre d'un lot de production sachant que la proportion de défectueux est imposée à 30% avec une erreur tolérée d'environ 5% entre la proportion réelle et empirique et ce afin d'obtenir un intervalle de confiance à un niveau de 95% du résultat:

equation   (7.195)

Remarque: La dernière relation est très très souvent utilisée en théorie des sondages (analyses pour des votations avec réponses de type: Oui/Non) où parfois la taille de l'échantillon n est imposée pour des raisons de coûts du sondage et dont nous cherchons à calculer l'incertitude equation et parfois l'inverse (l'incertitude est imposée et donc nous cherchons à connaître la taille de l'échantillon).

TEST DE L'ÉGALITÉ DE DEUX PROPORTIONS

Toujours dans le même contexte que l'approximation précédente de la loi Binomiale par une loi Normale, l'industrie (en particulier la biostatistique) est friande de comparer deux proportions de deux populations différentes afin de savoir si elles sont statistiquement égales ou non (autrement dit: statistiquement significativement différentes ou pas).

Dès lors rappelons que nous avons démontré la stabilité de la loi Normale si deux variables aléatoires étaient indépendantes et identiquement distribuées (selon une loi Normale donc!):

equation   (7.196)

Dans le cadre des hypothèses susmentionnées il en est alors de même approximativement pour la différence de deux proportions:

equation   (7.197)

Remarque: Dans le domaine médical où chacune des proportions ci-dessus représente respectivement le risque avec traitement et sans traitement nous parlons de "Risk Difference" et nous notons la différence equation. Si la différence est pare exemple de -5% cela signifie que nous pouvons sauver 5% des patients. En plus, le corps médical introduit aussi la notion de N.N.T. pour "Number Needed to Treat" comme étant le ration 1/RD qui donne donc le nombre moyen de patient à traiter pour éviter un événement indésirable. Ainsi avec 5% de RD (en valeur absolue), nous devons traiter 20 patients pour en sauver 1 statistiquement parlant.

Dès lors nous savons que cette nouvelle variable centrée réduite suit une loi Normale selon:

equation   (7.198)

et comme nous cherchons à savoir la probabilité cumulée que l'espérance théorique de la différence est nulle, cette dernière relation se réduit alors dans ce cas à:

equation   (7.199)

Évidemment nous pouvons aussi construire (comme toujours...) un intervalle de confiance à partir de cette relation.

Remarque: Attention! Le test de la différence de deux proportions de deux échantillons différents n'est évidemment pas le même que le test de la différence de deux proportions dans un même échantillon (covariance oublige puisque les deux proportions ne sont dès lors plus indépendantes)! Dans le dernier cas nous utilisons le test de McNemar (cf. chapitre de Méthodes Numériques)

Il semblerait cependant que cette dernière relation approximative serait d'après l'expérience plus correcte en prenant pour dénominateur:

equation   (7.200)

equation sera pris comme le mélange de deux populations. C'est-à-dire:

equation   (7.201)

soit (en changeant la notations des indices des proportions expérimentales):

equation   (7.202)

Ce test est aussi appelé "test Z de l'égalité de deux proportions". En médecine, on appelle cela le "test des différences de risque" (en sous-entendant que chaque proportion est une catégorie de population étudiée par rapport à un événement indésirable).

exempleExemple:

Dans le cadre d'un plan d'échantillonnage (cf. chapitre de Génie Industriel) nous avons prélevé sur un premier lot de 50 individus, 48 en parfait états. Dans un second lot de 30 individus, 26 étaient en bon état.

Nous avons donc:

equation   (7.203)

Nous souhaiterions donc savoir si la différence est statistiquement significative avec une certitude de 95% ou simplement due au hasard. Nous utilisons alors:

equation   (7.204)

et:

equation   (7.205)

Ce qui correspond à une probabilité cumulée en utilisant la version anglaise de Microsoft Excel 11.8346 de:

=NORMSDIST(1.535)=93.77%

Donc la différence est due au hasard (ceci dit c'est presque in extremis...). Autrement dit, elle n'est pas statistiquement significative sous les contraintes énoncées.

TEST DES SIGNES

Nous mesurons quelque chose sur un échantillon puis, plus tard, nous mesurons la même chose sur ce même échantillon mais avec une autre méthode (donc il s'agit donc d'échantillons appariés!). Les deux classements ordonnées des mesures sont comparés et chaque observation est affectée d'un signe ("+" en cas d'élévation dans le classement, "–" en cas de descente). Celles qui restent au même niveau sont éliminées.

Selon l'hypothèse à tester, il y a autant de "+" que de "–", c'est-à-dire que la médiane de la distribution n'a pas bougé (cette affirmation peut ne pas paraître évidente à la première lecture il faut donc bien prendre du temps parfois pour réfléchir là-dessus).

L'idée étant que pour chaque couple de valeurs, il n'y a que deux signes possibles de variations, nous avons une chance sur deux (50% de probabilité) que la différence soit positive ou négative. Ce test est donc basé uniquement sur l'étude des signes des différences observées entre les paires d'individus, quelles que soient les valeurs de ces différences.

Nous pouvons alors souhaiter contrôler deux hypothèses:

- L'inégalité des proportions de signes doit être statistiquement significative. Donc l'un deux signes doit être en petit nombre par rapport à l'autre, ce qui correspond à un test unilatéral gauche (la probabilité cumulée d'avoir ce petit nombre de signes doit être inférieur à un niveau equation donné).

- La proportion des deux signes doit être faiblement déséquilibrée (equation). Il s'agit donc dans ce cas d'un test en bilatéral (c'est le cas le plus courant) avec un certain niveau equation donné.

Pour pouvoir créer un tel test, nous allons considérons l'apparition des "+" et des "–" comme un système de tirage aléatoire binaire dont l'ordre des succès n'est pas pris en compte (il s'agit donc d'une loi binomiale ou hypergéométrique) et avec remise (ce qui élimine d'emblée la loi hypergéométrique qui n'est pas symétrique et pose des problèmes d'utilisation dans la pratique...). Pour considérer un tirage aléatoire avec remise (alors qu'on ne fait pas réellement de remise), il faut que la population N soit grande. Raison pour laquelle le test des signes considère que les valeurs appariées doivent être continues (ce qui permet in extenso d'approcher la loi hypergéométrique par la loi binomiale). Cependant certains logiciels de statistiques utilisent la loi hypergéométrique pour des soucis de précision.

Remarque: Il faut savoir que la majorité des logiciels de statistiques, font implicitement l'hypothèse lors de ce test que les données sont continues et utilisent la loi binomiale.

exempleExemple:

Considérons deux séries de mesures avec deux méthodes différentes. Nous souhaiterions tester l'hypothèse avec un niveau equation de 5% si la différence entre les deux méthodes est statistiquement significative (nous nous attendons donc à une équilibre des signes). Il s'agit donc d'un test des signes à deux échantillons (sachant qu'il est possible de faire la même chose en comparant les valeurs d'un seul et unique échantillon à sa médiane).

20.4, 25.4, 25.6, 25.6, 26.6, 28.6, 28.7, 29, 29.8, 30.5, 30.9, 31.1
20.7, 26.3, 26.8, 28.1, 26.2, 27.3, 29.5, 32, 30.9, 32.3, 32.3, 31.7

Nous avons donc les différences:

-0.3, -0.9, -1.2, -2.5, 0.4, 1.3, -0.8, -3.0, -1.1, -1.8, -1.4, -0.6

Soit:

–, –, –, –, +, +, –, –, –, –, –, –

Bon il est déjà clair que le résultat va être le rejet de l'hypothèse comme quoi il n'y pas de différence. Mais faisons quand même le calcul. Comme le test est en bilatéral à un niveau de 5%, la probabilité cumulée d'avoir obtenu au moins deux signes "+" ne doit pas être inférieure à 2.5% et pas supérieure à 97.5% si l'on veut accepter (ne pas rejeter) l'hypothèse comme quoi la différence n'est pas statistiquement significative.

Nous avons alors:

equation   (7.206)

Soit avec la version française de Microsoft Excel 14.0.6123:

=LOI.BINOMIALE(2;12;0.5;1)=1.928%

ou si nous ne faisons pas d'approximation en étant plus précis avec la loi hypergéométrique:

=LOI.HYPERGEOMETRIQUE.N(2;24/2;12;24;VRAI)=0.17%

ce qui n'est guère plus brillant...

Donc la probabilité cumulée est inférieure à 2.5% et n'est de loin pas supérieure à 97.5%, nous rejetons l'hypothèse comme quoi la différence n'est pas statistiquement significative.

Nous pourrions accepter l'hypothèse si nous prenions pour  equation la valeur:

equation   (7.207)

mais bon ce n'est pas le cas!

Enfin, pour terminer concernant ce test des signes (test de la médiane), indiquons que certains logiciels de statistiques proposent un intervalle de confiance de la médiane basé sur la méthode de calcul exposée précédemment (intervalle de confiance d'une loi binomiale). Cependant, nous pensons qu'il vaudrait mieux favoriser le bootstrapping comme nous l'avons vu dans le chapitre de Méthodes Numériques, nous nous abstiendrons donc de présenter cette technique ici. De plus il est peu utile de préciser que certains font un approximation en loi Normale (comme avec la majorité des tests mais nous nous en abstiendrons dans le cas présent).

TEST DE LA MÉDIANE DE MOOD

Nous allons ici introduire un test qui a de multiples noms: "test de la médiane", "test de Mood", "test de la médiane de Mood" ou encore "test de la médiane de Westenberg-Mood" ou "test de la médiane de Brown-Mood"...

Nous considérons deux échantillons indépendants equation et equation. Nous supposons que equation est un échantillon indépendant et distribué selon une loi continue F et equation est un échantillon indépendant et identiquement distribué d'une loi continue G.

Après regroupement des equation valeurs des deux échantillons, equation (la notation n'est pas géniale car elle peut faire croire à une multiplication mais bon...) est le nombre d'observations equation du premier échantillon qui sont supérieures à la médiane des equation observations.

Sous l'hypothèse nulle que les variables X et Y suivent la même loi continue (c'est-à-dire G=F), la variable equation peut prendre les valeurs equation selon la loi hypergéométrique:

equation   (7.208)

Dès lors, nous pouvons calculer la probabilité cumulée en unilatéral d'avoir k. Le test de Mood est donc un test purement unilatéral.

exempleExemple:

Considérons les deux échantillons:

23.4, 24.4, 24.6, 24.9, 25.0, 26.2, 26.3, 26.8, 26.8, 26.9, 27.0, 27.6, 27.7

22.5, 22.9, 23.7, 24, 24.4, 24.5, 25.3, 26, 26.2, 26.4, 26.7, 26.9, 27.4

La médiane globale calculée avec Microsoft Excel 14.0.6123 est de 26.10. Nous avons au total:

equation   (7.209)

Il vient alors avec la version française de Microsoft Excel 14.0.6123:

=LOI.HYPERGEOMETRIQUE.N(8;26/2;13;26;VRAI)=94.24%

Donc à un seuil de 5%, nous ne rejettons pas l'hypothèse nulle (mais bon étant proche de la limite c'est un peu périlleux de conclure cela...). Si nous faisons le même calcul avec la loi Binomiale nous obtenons:

=LOI.BINOMIALE.N(8;26/2;0.5;1)=86.65%

Mais bien évidemment ici l'approximation ne s'applique pas puisque l'approximation par une loi binomiale est acceptable dans la pratique que lorsque l'échantillon est environ 10 fois plus petit que la population.

Remarque: Il existe malheureusement plusieurs versions du test de Mood. Par exemple un logiciel comme Minitab compare à l'aide d'une table de contingence... le contingent de valeurs au-dessus ou en-dessous de la médiane et fait un simple test d'indépendance du Khi-deux (test de Pearson) vu dans le chapitre de Méthodes Numériques.

TEST DE POISSON (1 ÉCHANTILLON)

Nous savons qu'un certain nombre d'événements rares suivent une loi de Poisson. Nous pouvons alors nous permettre comme pour toute autre loi, de calculer la probabilité cumulée dans un intervalle donné (bilatéral ou unilatéral).

Donc, si nous avons une variable aléatoire discrète suivant une loi de Poisson:

equation   (7.210)

Nous avons alors en unilatéral droite à un certain niveau de confiance equation, la valeur de n de k la plus proche satisfaisant la condition:

equation   (7.211)

Donc pour trouver la valeur de n (entier strictement positif ou nul) il faudrait inverser la somme, ce qui est peu... pratique (raison pour laquelle aucun tableur à ce jour ne propose de fonction pour la loi de Poisson inverse).

Maintenant, rappelons que nous avons vu dans le chapitre de Suites Et Séries, la série de Taylor (Maclaurin) avec reste intégral à l'ordre n-1 autour de 0 jusqu'à equation suivante:

equation   (7.212)

Résultat que nous avions également donné sous la forme de fonctions pour la version française de Microsoft Excel 14.0.6123 pour que le lecteur puisse vérifier cette équivalence:

equation   (7.213)

Il vient alors que dans les tableurs, nous pouvons utiliser la loi du Khi-deux inverse pour calculer l'inverse de la loi de Poisson avec cette fois cependant une petite nuance: le résultat ne donnera pas nécessairement un nombre entier.

Si par exemple nous prenons (toujours avec la version française de Microsoft Excel 14.0.6123):

=1-LOI.KHIDEUX.N(2*20;2*(15+1);VRAI)=0.156513135   (7.214)

La question est alors de trouver l'écriture pour l'inverse... Celle-ci est alors donnée par (on divise par deux pour tomber pile poile sur la moyenne qui est donc la valeur qui nous intéresse):

=KHIDEUX.INVERSE(1-0.156513135;2*(15+1))/2=15.53194258   (7.215)

Finalement, l'écriture de l'inverse est assez naturelle. Ainsi, le "test de Poisson à 1 échantillon" à un niveau equationdonné en unilatéral droite peut s'écrire:

equationKHIDEUX.INVERSE(1-alpha;2*(nombre de mesures+1))/2   (7.216)

Soit formellement:

equation   (7.217)

Attention cependant à une chose! Il semblerait que certains logiciels de statistiques approximent parfois un peu abusivement la loi de Poisson par une loi Normale. Dès lors, l'intervalle unilatéral se calcule à partir de:

equation   (7.218)

Mais avec la loi de Poisson, nous avons:

equation   (7.219)

Il vient alors:

equation   (7.220)

exempleExemple:

Une société fabrique des télévisions en quantité constante et a mesuré le nombre d'appareils défectueux produits chaque trimestre pendant les dix dernières années (donc 4 fois 10 mesures). La direction décide que le nombre maximum acceptable d'unités défectueuses est de 20 par trimestre et souhaite déterminer si l'usine satisfait à ces exigences (sous l'hypothèse que la distribution des défectueux suive une loi de Poisson) à un niveau de confiance de 5%.

Les 40 mesures nous donnent une moyenne de:

equation   (7.221)

Nous avons alors avec l'approximation grossière:

equation   (7.222)

Soit dans un tableur comme la version française de Microsoft Excel 14.0.6123:

equation   (7.223)

ou:

equation   (7.224)

Soit dans un tableur comme la version française de Microsoft Excel 11.8346:

equation   (7.225)

Dans les deux cas, nous sommes en-dessous de la moyenne imposée de 20 (donc on rejette l'hypothèse nulle comme quoi le nombre de défauts est supérieur ou égal à 20). Bien évidemment, il est possible pour chacune des méthodes de déterminer quelle devrait être la probabilité cumulée (niveau de confiance) qui nous amène à la limite des 20 (donc la p-value en d'autres termes sur laquelle nous reviendrons plus loin). Avec la première méthode (approximation normale), la p-value est de 0.104%.

Évidemment, dans le cas bilatéral, nous avons:

equation   (7.226)

exempleExemple:

Une compagnie d'aviation a eu 2 deux crashs en 1'000'000 de vols (événement très rare). Quelle est l'intervalle de confiance en bilatéral à 95% sachant qu'au niveau mondial le nombre d'accident par millions est de 0.4.

Nous avons alors:

equation   (7.227)

Soit pour la borne supérieure avec un tableur comme la version française de Microsoft Excel 11.8346:

=LOI.KHIDEUX.INVERSE(1-5%/2;2*(2+1))/2=7.224   (7.228)

et pour la borne inférieure:

=LOI.KHIDEUX.INVERSE(1-5%/2;2*(2+1))/2=0.618   (7.229)

Donc statistiquement, cette compagnie est moins sûre que l'ensemble des compagnies.

TEST DE POISSON (2 ÉCHANTILLONS)

Nous venons de voir que:

equation   (7.230)

Or, en suivant le même raisonnement que celui qui nous a amené à construire le test de comparaison des moyennes suivant:

equation   (7.231)

ou son équivalent avec la loi de Student quand l'écart-type vrai n'est pas connu et en utilisant le fait que nous avons démontré que la loi de Poisson est stable par l'addition (et donc aussi par la soustraction), que la loi de Gamma était aussi stable par l'addition (et donc aussi par la soustraction) et la loi du Khi-deux aussi puisque ce n'est qu'un cas particulier de la loi Gamma. Nous aurions peut-être tendance à écrire un peu une généralisation logique de ce que nous avons vu juste plus haut:

equation   (7.232)

Et au fait cela constitue un piège selon certains praticiens... Car la loi du Khi-deux a un support qui est défini comme étant strictement positif et l'intervalle de confiance peut naturellement avoir la borne de gauche qui est négative (... O_o). Une solution consiste alors à utiliser le test de la différence de deux proportions que nous avons déjà étudié plus haut:

equation   (7.233)

À condition bien évidemment que les conditions permettant d'approcher le test par une loi Normale soient satisfaites (les proportions doivent être inférieures typiquement à 0.1 et les n supérieurs à 50).

Certains logiciels semblent avoir implémenté cette dernière méthode (avec laquelle je ne suis pas forcément d'accord).

exempleExemple:

Une compagnie d'aviation a eu 2 deux crashs en 1'000'000 de vols (événement très rare). Une autre compagnie a eu 3 crashs en 1'200'000 vols. Quel est l'intervalle de confiance en bilatéral à 95% en supposant que la différence est nulle.

Les proportions sont alors respectivement:

equation et equation   (7.234)

Notons:

equation    (7.235)

Nous avons alors:

equation   (7.236)

ce qui donne un intervalle de confiance pour la différence de proportion théorique attendue:

equation   (7.237)

et donc comme -0.0000005 est dans cet intervalle, nous acceptons l'hypothèse comme quoi la différence des proportions n'est pas statistiquement significative au seuil de 5%.

Ou en prenant l'expression non approximée, nous avons (avec la même conclusion):

equation   (7.238)

Donc pour résumer un peu les convergences de lois dans tous ces différents tests et intervalles que nous avons vu jusqu'à maintenant, nous proposons au lecteur le schéma suivant qui clarifiera peut-être plus ou moins bien les choses:

equation Figure: 7.5 - Convergence des différentes lois usuelles en inférence statistique élémentaire

Et aussi ce tableau où toutes les relations ont été démontrées en détail plus haut et certains déjà utilisées (d'autres le seront plus loin):

Statistique d'échantillonnage

Moyenne
de la statistique

Écart-type
de la statistique

Moyenne
(population infinie)

equation

equation

Moyenne
(population finie)

equation

equation

Proportion
(population finie)

p

equation

Proportion
(population infinie)

p

equation

equation
(population infinie*)

equation

equation

Tableau: 7.1 - Tableau des statistiques d'échantillonnage démontrées et utilisées en partie jusqu'à maintenant

*: Pour autant que la population parente soit distribuée normalement.

INTERVALLE DE CONFIANCE/TOLÉRANCE/PRÉDICTION

Nous allons ici, afin d'éviter une confusion fréquente et avant de passer à d'autres sujets plus complexes, comparer l'intervalle de confiance, l'intervalle de tolérance (souvent appelé "intervalle de fluctuation" dans certains programmes scolaires) et enfin l'intervalle de prédiction.

Définitions:

D1. "L'intervalle de tolérance" (ou "intervalle de fluctuation") est un intervalle contenant un certain pourcentage (souvent 68.26, 95.44 ou 99.73% pour une distribution Normale) des individus d'une population de mesures.

D2."L'intervalle de confiance" pour un échantillon de moyenne equation (ou de proportion p) contient l'intervalle de valeur à un niveau de confiance donné (souvent 90, 95 ou 99% dans le cas bilatéral) de l'espérance equation (moyenne vraie) ou de la proportion de la population.

D3. "L'intervalle de prédiction" permet de déterminer un intervalle d'une valeur individuelle basée sur la connaissance de la moyenne échantillonnale et de l'écart-type de la population.

Un exemple valant mieux assez souvent mieux que mille mots, prenons le cas où la moyenne et l'écart-type de prix de 49 DVD sont:

equation   (7.239)

Nous avons alors:

equation   (7.240)

correspondant respectivement à des intervalles de tolérance selon une loi Normale de 68.26, 95.44 et 99.73%.

Par contre, un intervalle de confiance à 95% basé sur la relation démontrée plus haut:

equation   (7.241)

donne:

equation   (7.242)

Donc 95% de probabilité cumulée que la moyenne vraie (espérance) se trouve comprise entre 31.32 et 31.78.

equation
Figure: 7.6 - Histogramme de l'échantillon des prix de 49 DVD

Maintenant passons à une notion qui curieusement est rarement traitée dans les ouvrages de statistiques. L'idée de l'intervalle de prédiction est de plutôt que de s'intéresser à l'intervalle de confiance de l'espérance basé sur une moyenne expérimentale, d'utiliser cette moyenne expérimentale (échantillonnale) comme base pour prévoir l'intervalle d'une unique valeur (et non d'une moyenne!).

Nous allons donc nous intéresser à la différence entre la moyenne et une valeur ponctuelle:

equation   (7.243)

que nous supposerons proche de zéro (il vaut mieux pour avoir un produit fiable et passer les tests d'autorisation des ventes...). Concernant la variance, ce qui nous intéresse ce n'est plus simplement l'écart-type de la moyenne mais l'écart-type de la différence... et comme l'échantillon est indépendant de la valeur unique nous avons:

equation   (7.244)

Donc nous pouvons écrire qu'en première approximation:

equation   (7.245)

Et bien évidemment suite à ce que nous avons vu:

equation   (7.246)

Et donc in extenso nous pouvons construire l'intervalle de prédiction:

equation   (7.247)

LOI FAIBLE DES GRANDS NOMBRES

Nous allons maintenant nous attarder sur une relation très intéressante en statistiques qui permet de dire pas mal de choses tout en ayant peu de données et ce quelle que soit la loi considérée (ce qui est pas mal quand même!). C'est une propriété très utilisée en simulation statistique par exemple dans le cadre de l'utilisation de Monte-Carlo.

Soit une variable aléatoire à valeurs dans equation. Alors nous allons démontrer la relation suivante appelée "inégalité de Markov":

equation   (7.248)

avec equation  dans le contexte particulier des probabilités.

En d'autres termes, nous proposons de démontrer que la probabilité qu'une variable aléatoire soit plus grande ou égale qu'une valeur equation est inférieure ou égale à son espérance divisée par la valeur considérée equation et ce quelle que soit la loi de distribution de la variable aléatoire X!

Démonstration:

Notons les valeurs de X par equation, où equation (c'est-à-dire triées par ordre croissant) et posons equation. Nous remarquons d'abord que l'inégalité est triviale au cas oùequation. Effectivement, comme X ne peut être compris qu'entre 0 et equation par définition alors la probabilité qu'il soit supérieur à equation est nulle. En d'autres termes:

equation   (7.249)

et X étant positif, E(X) l'est aussi, d'où l'inégalité pour ce cas particulier dans un premier temps.

Sinon, nous avons equation et il existe alors un equation tel que equation. Donc:

equation   (7.250)

equationC.Q.F.D.

exempleExemple:

Nous supposons que le nombre de pièces sortant d'une usine donnée en l'espace d'une semaine est une variable aléatoire d'espérance 50. Si nous souhaitons estimer la probabilité cumulée que la  production dépasse 75 pièces nous appliquerons simplement:

equation   (7.251)

Considérons maintenant une sorte de généralisation de cette inégalité appelée "inégalité de Bienaymé-Tchebychev" (abrégée "inégalité BT") qui va nous permettre d'obtenir un résultat très très très intéressant et important un peu plus bas.

Considérons une variable aléatoire X réelle (donc nous ne nous limitons pas au seul cas où elle est dans equation). Alors nous allons démontrer l'inégalité de Bienaymé-Tchebychev suivante:

equation   (7.252)

qui exprime le fait que plus l'écart-type est petit, plus la probabilité que la variable aléatoire X s'éloigne de son espérance est faible.

Démonstration:

Nous obtenons cette inégalité en écrivant d'abord:

equation   (7.253)

où le choix du carré va nous servir pour une simplification future.

Puis en appliquant l'inégalité de Markov (comme quoi c'est quand même utile...) à la variable aléatoire equation avec equation il vient automatiquement:

equation   (7.254)

Ensuite, en utilisant la définition de la variance:

equation    (7.255)

Nous obtenons bien:

equation   (7.256)

equationC.Q.F.D.

Si nous posons:

equation   (7.257)

l'inégalité s'écrit aussi:

equation   (7.258)

et exprime que la probabilité cumulée qu'afin que X s'éloigne de son espérance de plus que t fois son écart-type, est inférieure à equation. Il y a, en particulier, moins de 1 chance sur 9 pour que X s'éloigne de son espérance de plus de trois fois l'écart-type. C'est par ailleurs ce théorème qu'a utilisé le comité de Bâle pour définir le facteur de correction de la Value At Risk utilisé en finance (cf. chapitre d'Économie).

exempleExemple:

Nous reprenons l'exemple où le nombre de pièces sortant d'une usine donnée en l'espace d'une semaine est une variable aléatoire d'espérance 50. Nous supposons en plus que la variance de la production hebdomadaire est de 25. Nous cherchons à calculer la probabilité que la production de la semaine prochaine soit comprise entre 40 et 60 pièces.

Pour calculer ceci il faut d'abord se souvenir que l'inégalité de BT est basée en partie sur le terme equation donc nous avons:

equation   (7.259)

donc l'inégalité de BT nous permet bien de travailler sur des intervalles égaux en valeur absolue ce qui s'écrit aussi:

equation   (7.260)

Ensuite, ne reste plus qu'à appliquer simplement l'inégalité numériquement:

equation   (7.261)

Les deux dernières inégalités obtenues avant l'exemple vont nous permettre d'obtenir une relation très importante et puissante que nous appelons la "loi faible des grands nombres" (L.F.G.N.) ou encore "théorème de Khintchine".

Considérons une variable aléatoire X admettant une variance et equation une suite de variables aléatoires indépendantes (donc non corrélées deux-deux) de même loi que X et ayant toutes les mêmes espérances equation et les mêmes écarts-types equation.

Ce que nous allons montrer est que si nous mesurons une même quantité aléatoire equation de même loi au cours d'une suite d'expériences indépendantes (alors dans ce cas, nous disons techniquement que la suite equation de variables aléatoires est définie sur le même espace probabilisé), alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance de X quand le nombre de mesures est infiniment élevé.

De manière formelle ceci s'exprime sous la forme:

equation  (7.262)

lorsque equation c'est cela le résultat très important dont nous faisions mention plus haut! L'estimateur empirique de la moyenne tend donc pour toute loi vers l'espérance vraie si n est grand! Donc de par la même nous assurons que la moyenne empirique est un estimateur convergent de l'espérance! Ce résultat (assez intuitif) est parfois appelé "théorème fondamental de Monte-Carlo" car il est au centre du principe des simulations du même nom (cf. chapitre de Méthodes Numériques) qui ont une importance cruciale dans l'étude des statistiques avancées.

Donc en d'autres termes la probabilité cumulée que la différence entre la moyenne arithmétique et l'espérance des variables aléatoires observées soit comprise dans un intervalle autour de la moyenne tend vers zéro quand le nombre de variables aléatoires mesurées tend vers l'infini (ce qui est finalement intuitif).

Ce résultat nous permet d'estimer l'espérance mathématique en utilisant la moyenne empirique (arithmétique) calculée sur un très grand nombre d'expériences.

Démonstration:

Nous utilisons l'inégalité de Bienaymé-Tchebychev pour la variable aléatoire (cette relation s'interprète difficilement mais permet d'avoir le résultat escompté):

equation   (7.263)

Et nous calculons d'abord en utilisant les propriétés mathématiques de l'espérance que nous avions démontrées plus haut:

equation   (7.264)

et dans un deuxième temps en utilisant les propriétés mathématiques de la variance aussi déjà démontrées plus haut:

equation   (7.265)

et puisque nous avons supposé les variables non corrélées entre elles alors la covariance est nulle dès lors:

equation   (7.266)

Donc en injectant cela dans l'inégalité BT:

equation   (7.267)

nous avons alors:

equation   (7.268)

qui devient:

equation   (7.269)

et l'inégalité tend bien vers zéro quand n au dénominateur tend vers l'infini.

equationC.Q.F.D.

Signalons que cette dernière relation est souvent notée dans certains ouvrages et conformément à ce que nous avons vu au début de ce chapitre:

equation   (7.270)

ou encore:

equation   (7.271)

Donc, pour equation:

equation   (7.272)

FONCTION CARACTÉRISTIQUE

Avant de donner une démonstration à la manière de l'ingénieur du théorème central limite, introduisons d'abord le concept de "fonction caractéristique" qui tient une place centrale en statistiques.

D'abord, rappelons que la transformée de Fourier est donnée dans sa version physicienne par (cf. chapitre de Suites et Séries) la relation:

equation   (7.273)

Rappelons que la transformation de Fourier est un analogue de la théorie des séries de Fourier pour les fonctions non périodiques, et permet de leur associer un spectre en fréquences. Au facteur près, il s'agit d'une "transformée de Laplace bilatérale" donnée par:

equation   (7.274)

avec p qui est la variable complexe donnée dans le cas présent par (la partie réelle est nulle puisque la transformée de Fourier n'est que le cas particulier d'une transformée de Laplace dont la partie réelle de la variable est nulle: dont faire une transformée de Fourier c'est faire une transformée de Laplace sur l'axe des complexes uniquement):

equation   (7.275)

Nous souhaitons maintenant démontrer que si:

equation alors equation   (7.276)

En d'autres termes, nous cherchons une expression simplifiée de la transformée de Fourier de la dérivée de f(x).

Démonstration:

Nous partons donc de:

equation   (7.277)

Une intégration par parties donne:

equation   (7.278)

En imposant que,  f tend vers zéro à l'infini, nous avons alors:

equation   (7.279)

et:

equation   (7.280)

C'est le premier résultat dont nous avions besoin.

equationC.Q.F.D.

Maintenant, démontrons que si:

equation alors equation   (7.281)

Démonstration:

Nous partons donc de:

equation   (7.282)

C'est le deuxième résultat dont nous avions besoin.

equationC.Q.F.D.

Maintenant effectuons le calcul de la transformée de Fourier de la loi Normale centrée-réduite (ce choix n'est pas innocent...):

equation   (7.283)

Nous savons que cette dernière relation est trivialement solution de l'équation différentielle (ou bien elle vérifie):

equation   (7.284)

en prenant la transformée de Fourier des deux côté de l'égalité, nous avons en utilisant les deux résultats précédents:

equation alors equation   (7.285)
equation alors equation

Nous avons:

equation   (7.286)

Ou encore:

equation   (7.287)

Donc après intégration:

equation   (7.288)

Puisque:

equation   (7.289)

nous avons donc:

equation   (7.290)

Nous avons démontré lors de notre étude de la loi Normale que:

equation   (7.291)

Donc:

equation   (7.292)

Nous avons alors (résultat important!):

equation   (7.293)

Introduisons maintenant la fonction caractéristique telle que définie par les statisticiens:

equation   (7.294)

qui est un outil analytique important et puissant permettant d'analyser une somme de variables aléatoires indépendantes. De plus, cette fonction contient toutes les informations caractéristiques de la variable aléatoire X.

Il s'agit

Remarque: La notation n'est pas innocente puisque le E[...] représente une espérance de la fonction de densité par rapport à l'exponentielle complexe.

Donc la fonction caractéristique de la variable aléatoire normale centrée réduite de distribution:

equation   (7.295)

devient simple à déterminer car:

equation   (7.296)

Raison pour laquelle la fonction caractéristique de la loi Normale centrée réduite est souvent assimilée à une simple transformée de Fourier.

Et grâce au résultat précédent:

equation   (7.297)

Donc:

equation   (7.298)

qui est le résultat dont nous avons besoin pour le théorème central limite. Cette fonction caractéristique est égale, à une constante près, à la densité de probabilité de la loi. Nous disons alors que la fonction caractéristique d'une gaussienne est gaussienne.

Mais avant cela, regardons d'un peu plus près cette fonction caractéristique:

equation   (7.299)

En développement de Maclaurin nous avons (cf. chapitre Suites et Séries) et en changeant un peu les notations:

equation   (7.300)

et en intervertissant la somme et l'intégrale, nous avons:

equation   (7.301)

Cette fonction caractéristique contient donc tous les moments (terme général utilisé pour l'écart-type et l'espérance) de X.

THÉORÈME CENTRAL LIMITE

Le théorème central limite est un ensemble de résultats du début du 20ème siècle sur la convergence faible d'une suite de variables aléatoires en probabilité. Intuitivement, d'après ces résultats, toute somme  (implicitement: la moyenne de ses variables) de variables aléatoires indépendantes et identiquement distribuées tend vers une certaine variable aléatoire. Le résultat le plus connu et le plus important est simplement appelé "théorème central limite" qui concerne une somme de variables aléatoires indépendantes avec variance existante dont le nombre tend vers l'infini et c'est celui-ci que nous allons démontrer de manière heuristique ici.

Dans le cas le plus simple, considéré ci-dessous pour la démonstration du théorème, ces variables sont continues, indépendantes et possèdent la même moyenne et la même variance. Pour tenter d'obtenir un résultat fini, il faut centrer cette somme en lui soustrayant sa moyenne et la réduire en la divisant par son écart-type. Sous des conditions assez larges, la loi de probabilité (de la moyenne) converge alors vers une loi Normale centrée réduite. L'omniprésence de la loi Normale s'explique par le fait que de nombreux phénomènes considérés comme aléatoires sont dus à la superposition de causes nombreuses.

Ce théorème de probabilités possède donc une interprétation en statistique mathématique. Cette dernière associe une loi de probabilité à une population. Chaque élément extrait de la population est donc considéré comme une variable aléatoire et, en réunissant un nombre n de ces variables supposées indépendantes, nous obtenons un échantillon. La somme de ces variables aléatoires divisée par n donne une nouvelle variable nommée la moyenne empirique. Celle-ci, une fois réduite, tend vers une variable Normale réduite lorsque n tend vers l'infini comme nous le savons.

Le théorème central limite nous dit à quoi il faut s'attendre en matière de sommes de variables aléatoires indépendantes. Mais qu'en est-il des produits? Eh bien, le logarithme d'un produit (à facteurs strictement positifs) est la somme des logarithmes des facteurs, de sorte que le logarithme d'un produit de variables aléatoires (à valeurs strictement positives) tend vers une loi Normale, ce qui entraîne une loi log-Normale pour le produit lui-même.

En elle-même, la convergence vers la loi Normale ("normalité asymptotique") de nombreuses sommes de variables aléatoires lorsque leur nombre tend vers l'infini n'intéresse que le mathématicien. Pour le praticien, il est intéressant de s'arrêter un peu avant la limite: la somme d'un grand nombre de ces variables est presque gaussienne, ce qui fournit une approximation souvent plus facilement utilisable que la loi exacte.

En s'éloignant encore plus de la théorie, on peut dire que bon nombre de phénomènes naturels sont dus à la superposition de causes nombreuses, plus ou moins indépendantes. Il en résulte que la loi Normale les représente de manière raisonnablement efficace.

A l'inverse, on peut dire qu'aucun phénomène concret n'est vraiment Gaussien car il ne peut dépasser certaines limites, en particulier s'il est à valeurs positives.

Démonstration:

Soit equation une suite (échantillon) de variables aléatoires continues (dans notre démonstration simplifiée...), indépendantes (mesures de phénomènes physiques ou mécaniques indépendants par exemple) et identiquement distribuées, dont la moyenne equationet l'écart-type equation existent (ce qui signifie que le théorème central limite fonctionne que pour les phénomènes à variance finie!!!).

Nous avons vu au début de ce chapitre que:

equation   (7.302)

sont les mêmes expressions d'une variable centrée réduite générée à l'aide d'une suite de n variables aléatoires identiquement distribuées qui par construction a donc une moyenne nulle et une variance unitaire:

equation et equation   (7.303)

Développons la première forme de l'égalité antéprécédente (les 2 sont de toute façon égales!):

equation   (7.304)

Maintenant utilisons la fonction caractéristique de la loi Normale centrée-réduite (nous allégeons par la même occasion l'écriture des estimateurs de la moyenne et de l'écart-type):

equation   (7.305)

Comme les variables aléatoires equation sont indépendantes et identiquement distribuées, il vient:

equation   (7.306)

Un développement de Taylor (cf. chapitre de Suites Et Séries) du terme entre accolades donne au troisième ordre (développement en série de Maclaurin de l'exponentielle):

equation   (7.307)

Finalement:

equation
  (7.308)

Posons:

equation   (7.309)

Nous avons alors:

equation   (7.310)

Et donc quand x tend vers l'infini (cf. chapitre d'Analyse fonctionnelle):

equation   (7.311)

Nous retrouvons donc la fonction caractéristique de la loi Normale centrée réduite!

En deux mots, le Théorème Central Limite (TCL) dit que pour de grands échantillons, la somme centrée et réduite de n variables aléatoires identiquement distribuées suit une loi Normale centrée et réduite. Et donc nous avons in extenso pour la moyenne empirique:

equation   (7.312)

Malgré l'immensité de son champ d'applications, le TCL n'est pas universel. Dans sa forme la plus simple, il impose en particulier à la variable considérée d'avoir des moments du premier et du deuxième ordre (moyenne et variance). Si tel n'est pas le cas, il ne s'applique plus.

L'exemple le plus simple d'échec du TLC est donné par la distribution de Cauchy, qui n'a ni moyenne, ni variance, et dont la moyenne empirique a toujours la même distribution (Cauchy) quelle que soit la taille de l'échantillon.

Maintenant, nous allons illustrer le théorème central limite dans le cas d'une suite equation de variables aléatoires indépendantes discrètes suivant une loi de Bernoulli de paramètre 1/2.

Nous pouvons imaginer que equation représente le résultat obtenu au n-ème lancé d'une pièce de monnaie (en attribuant le nombre 1 pour pile et 0 pour face). Notons:

equation   (7.313)

la moyenne. Nous avons pour tout n bien évidemment:

equation    equation   (7.314)

et donc:

equation      equation   (7.315)

Après avoir centré et réduit equation nous obtenons:

equation   (7.316)

Notons equation la fonction de répartition de la loi Normale centrée réduite.

Le théorème central limite nous dit que pour tout equation:

equation   (7.317)

A l'aide de Maple 4.00b nous avons tracé en bleu quelques graphiques de la fonction:

equation   (7.318)

pour différentes valeurs de n. Nous avons représenté en rouge la fonction equation.

equation:

equation
Figure: 7.7 - Première approche de la loi de Bernoulli par le loi Normale selon le TCL

equation:

equation
Figure: 7.8 - Deuxième approche de la loi de Bernoulli par le loi Normale selon le TCL

equation

equation
Figure: 7.9 - Troisième approche de la loi de Bernoulli par le loi Normale selon le TCL

equation

equation
Figure: 7.10 - Quatrième approche de la loi de Bernoulli par le loi Normale selon le TCL

Ces graphiques obtenus avec Maple 4.00b à l'aide des commandes suivantes:

> with(stats):
> with(plots):
> e1:=plot(Heaviside(t+1)*statevalf[dcdf,binomiald[1,0.5]](trunc((t+1)/2)),t=-2..2,y=0..1,color=blue):
> e2:=plot(Heaviside(t+sqrt(2))*statevalf[dcdf,binomiald[2,0.5]](trunc((t*sqrt(2)+2)/2)),t=-sqrt(2)-1..sqrt(2)+1,y=0..1,color=blue):
> e3:=plot(Heaviside(t+sqrt(5))*statevalf[dcdf,binomiald[5,0.5]](trunc((t*sqrt(5)+5)/2)),t=-sqrt(5)-1..sqrt(5)+1,y=0..1,color=blue):
> e4:=plot(statevalf[cdf,normald](t),t=-5..5):
> e5:=plot(Heaviside(t+sqrt(30))*statevalf[dcdf,binomiald[30,0.5]](trunc((t*sqrt(30)+30)/2)),t=-sqrt(30)-1..sqrt(30)+1,y=0..1,color=blue):
> display({e1,e4});
> display({e2,e4});
> display({e4,e3});
> display({e5,e4});

montrent bien la convergence de equation vers equation.

En fait nous remarquons que la convergence est carrément uniforme ce qui est confirmé par le "théorème central limite de Moivre-Laplace":

Soit equation une suite de variables aléatoires indépendantes de même loi de Bernoulli de paramètre p, equation. Alors:

equation   (7.319)

tend uniformément vers equation sur equation lorsque equation.

TESTS D'HYPOTHÈSE ET D'ADÉQUATION

Lors de notre étude des intervalles de confiance, rappelons que nous sommes arrivés aux quelques relations suivantes (ce n'est que l'échantillon des plus importantes démontrées plus haut!):

equation   (7.320)

et:

equation   (7.321)

et:

equation   (7.322)

et enfin:

equation   (7.323)

qui permettaient donc de faire de l'inférence statistique en fonction de la connaissance ou non de la moyenne ou de la variance vraie sur la totalité ou sur un échantillon de la population. En d'autres termes de savoir dans quelles bornes se situait un moment (moyenne ou variance) en fonction d'un certain niveau de confiance equation imposé. Nous avions vu que le deuxième intervalle ci-dessus ne peut être que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le troisième.

Nous allons également démontrer en détails plus loin les deux intervalles suivants:

equation   (7.324)

et:

equation   (7.325)

Le premier intervalle ci-dessus ne peut être lui aussi que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le deuxième.

Définition: Lorsque nous cherchons à savoir si nous pouvons faire confiance à la valeur d'une statistique (moyenne, médiane, variance, coefficient de corrélation, etc.) avec une certaine certitude, nous parlons de "test d'hypothèse" et plus particulièrement de "test de conformité" (nous parlons de "test d'adéquation" quand il s'agit de vérifier que des mesures suivent bien une loi donnée et non juste une statistique).

Les tests d'hypothèses sont destinés à vérifier si un échantillon peut être considéré comme extrait d'une population donnée ou représentatif de cette population, vis-à-vis d'un paramètre comme la moyenne, la variance ou la fréquence observée. Ceci implique que la loi théorique du paramètre soit connue au niveau de la population. Les tests d'hypothèses ne sont pas faits pour démontrer l'hypothèse nulle (exprimant généralement une égalité ou une homogénéité entre différentes populations), mais pour éventuellement la rejeter (dispons pour être exact que le rejet est plus robuste). Au niveau de la communication des tests statistiques un certain nombre de spécialistes recommandent:

1. De toujours communiquer la p-value avec 4 chiffres après la virgule (nous reviondrons plus loin sur ce concept).

2. De ne jamais dire qu'un p-value faible montre une amplitude importante de l'effet étudié car cela n'est pas forcéement vrai (pour le vérifier il suffit de prendre un phénomène de très petite amplitude sur une gros échantillon et la p-value deviendra toute de suite très petite par construction).

3. De toujours donner l'intervalle de confiance du test qu'il soit unilatéral ou bilatéral.

4. De bien se garder de fixer un seuil de rejet au test excepté si une norme ou législation l'impose (dans ce dernier cas on précisera laquelle).

5. De ne jamais dire que le test est "démontré", ou "significatif" ou même "statistiquement significatif". Juste dire que le résultat est "statistique" ou que nous avons la "probabilité des données connaissant l'hypothèse nulle" et c'est tout!

6. Si l'intérêt est de montrer l'hypothèse nulle et que cette dernière n'est pas rejetée, étant donné souvent sa puissance statistique faible, il faudra répéter l'expérience pour conforter la conclusion.

7. Si l'intérêt est de rejeter l'hypothèse nulle et que cela se vérifie, une bonne pratique scientifique est de chercher des études supplémentaires qui mettraient en défaut la conclusion.

8. S'il y a absence par exemple de différence statistique entre deux valeurs, cela ne signfie pas pour autant qu'il y ait présence statistique d'équivalence. Il faut alors procéder à des "tests d'équivalences".

9. La rejet de l'hypothèse nulle ne signifie pas que le méchanisme du phénomène étudié a été mis en évidence mais indique juste pour rappel une information de taille sur les données a posteriori.

10. Nous communiquons la puissance a posteriori du test.

Bref, les études doivent être diffisusées en respectant le principe de véracité, après avoir fait l'objet des vérifications de rigueur, et doivent être exposées, décrites et présentées avec impartialité. Il ne faut pas confondre résultats objectifs et spéculations. Les conclusions doivent être l'expression le plus fidèle possible du contenu des faites et des données.

Par exemple, si nous souhaitons savoir avec une certaine confiance si une moyenne donnée d'un échantillon de population est réaliste par rapport à la vraie moyenne théorique inconnue, nous utiliserons le "test-Z" qui est simplement:

equation   (7.326)

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

equation   (7.327)

alors la soustraction (différencier) des moyennes donne:

equation   (7.328)

Donc pour la différence de deux moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

equation   (7.329)

Nous pouvons alors adapter le test-Z sous la forme:

equation   (7.330)

La relation qui est très utile lorsque pour deux échantillons de deux populations de données, nous voulons vérifier s'il existe une différence statistiquement significative des différences des moyennes théoriques à un niveau de confiance equation fixé et la probabilité associée pour avoir cette différence:

equation   (7.331)

Donc:

equation   (7.332)

Nous parlons du "test-Z de la moyenne à deux échantillons" et il est beaucoup utilisé dans l'industrie pour vérifier l'égalité de la moyenne de deux populations de mesures.

Et si l'écart-type théorique n'est pas connu, nous utiliserons le "test-T" de Student (pas mal utilisé en pharmaco-économie) démontré plus haut:

equation   (7.333)

Dans la même idée pour l'écart-type, nous utiliserons le "test du Khi-deux (de la variance)" aussi déjà démontré plus haut:

equation   (7.334)

Et lorsque nous voulons tester l'égalité de la variance de deux populations nous utilisons le "test-F" de Fisher (démontré plus bas lors de notre étude de l'analyse de la variance):

equation   (7.335)

Dans la pratique il faut avoir conscience que le but d'un test est très très souvent de montrer que l'effet est significatif. Il est alors d'usage de dire que le test réussit si l'hypothèse nulle est rejetée au profit de l'hypothèse alternative. Lorsque le praticien sait que l'effet est significatif et pourtant que son test échoue à rejeter l'hypothèse nulle on parle parfois du "dilemne du non rejet de l'hypothèse nulle". Comme nous le verrons un peu plus loin, l'idée est alors de calculer à posteriori la puissance du test (celle-ci étant alors appelée par certains logiciels comme SPSS: "puissance observée") et d'adapter la taille de l'échantillon en conséquence pour avoir une puissance acceptable selon la tradition d'usage.

ORIENTATION DU TEST D'HYPOTHÈSE

Le fait que nous obtenions l'ensemble des valeurs satisfaisant à un testborné à droite et (!) à gauche est ce que nous appelons dans le cas général un "test bilatéral" car il comprend le test unilatéral à gauche et unilatéral à droite. Ainsi, tous les tests susmentionnés sont dans une forme bilatérale mais nous pourrions en faire une utilisation unilatérale aussi! Nous utilisons un test unilatéral lorsque la différence attendue (ou à mettre en évidence) ne peut aller que dans un sens (typiquement dans le cas des essais cliniques ou lors d'un action corrective de contrôle qualité en industrie pour laquelle nous nous attendons à une amélioration allant dans une unique direction). Les test unilatéraux sont parfois nommés "test de non-infériorité" (unilatéral gauche) ou "test de non-supériorité" (unilatéral droite).

Ci-dessous, nous avons représenté par exemple un test unilatéral à droite (car la région de rejet est à droite et donc la probabilité cumulée est unilatérale gauche) et un test bilatéral:

equation
Figure: 7.11 - Illustration d'un test (ou intervalle de confiance) unilatéral à droite et bilatéral

Nous pouvons également résumer la manière de déterminer la p-value (sur laquelle nous reviendrons plus loin en détail) par le logigramme suivant:

equation
Figure: 7.12 - Figure de résumé pour déterminer la p-value lors de tests paramétriques à distribution symétrique

Signalons aussi que les tests d'hypothèses sur l'écart-type (variance), la moyenne ou la corrélation sont appelés des "tests paramétriques" à l'inverse des tests non paramétriques que nous verrons beaucoup plus loin.

Remarques:

R1. Il existe également une autre définition du concept de test paramétrique et non-paramétrique (un peu différente car plus précise) à voir plus loin...

R2. Attention! Certains auteurs ou professeurs parlent parfois de test "unilatéral à gauche" pour un "test unilatéral à droite"... Au fait il s'agit simplement d'un choix de vocabulaire. Si la référence pédagogique n'est pas la zone de rejet mais la zone d'acception, alors il est clair que les concepts de droite et gauche s'inversent...

Enfin, de nombreux logiciels calculent donc ce que nous appelons la "p-value" qui est le risque calculé (probabilité) equation qu'aurait pu fixer le statisticien pour être à la limite entre l'acceptation de l'hypothèse nulle et son rejet (rappelons qu'un test qui réussit ne prouve rien). La p-value est donc une valeur fondamentale dans le domaine car elle permet de chiffrer la vraisemblance de l'hypothèse nulle equation(acception ou rejet).

Mais en toute rigueur la p-value est la probabilité conditionnelle (bayésienne), que nos données satisfont l'hypothèse nulle equation et non la probabilité de l'hypothèse nulle connaissant les données! Même si la différence peut être faible comme nous l'avons vu dans le chapitre de Probabilités, elle n'en est pas moins non nulle! Donc la p-value en réalité ne dit rien sur l'hyphothèse elle-même, mais elle donne une information sur les données expérimentales.

Pour un test d'hypothèse, par exemple, le 5% de risque equation est celui de rejeter l'hypothèse nulle equation alors même qu'elle est vraie. Si le risque imposé/choisi est 5% et que la p-value calculée est inférieure (dans la majorité des tests mais il faut être prudent car ce n'est pas une généralité!!!), le test échoue (rejet de l'hypothèse nulle) en faveur d'une hypothèse alternative notée equation ou parfois equation.

L'hypothèse alternative a bien évidemment elle-même son propre risque que nous notons equation et sa propre p-value. Donc lorsque l'hypothse nulle n'est pas rejetée, le risque associé à cette décision est un risque de deuxième espèce. Pour l'évaluer, il faudrait donc calculer le puissance du test considéré.

Peut-être, pour mieux comprendre, voici une illustration d'un cas particulier d'un test d'hypothèse bilatéral de la moyenne pour une variable aléatoire suivant typiquement une loi Normale (en gros c'est le même principe pour tous les tests...):

equation
Figure: 7.13 - Hypothèse nulle et alternative d'un test bilatéral particulier

Ainsi, dans le cas présenté ci-dessus, nous voyons mieux pourquoi l'hypothèse nulle peut donc être acceptée ou rejetée en faveur de l'hypothèse alternative (qui est de même loi que l'hypothèse nulle mais juste décalée) dépendant de la valeur de référence mesurée qui sera utilisée pour le test (en l'occurence dans le cas particulier il s'agit de la moyenne arithmétique des mesures).

Nous remarquons aussi que la zone rouge de l'hypothèse alternative, correspondant à la probabilité cumuléeequation, est confondue en partie avec la partie jaune de l'hypothèse nulle. Raison pour laquelle nous pouvons parfois accepter l'hypothèse nulle à tort. Nous voyons cependant que plus equation serait petit, plus l'hypothèse alternative serait donc éloignée de la zone limite rouge de l'hypothèse nulle (cela correspondrait à une translation vers la droite dans le cas présent) et moins la probabilité de faire une fausse conclusion est grande. Raison pour laquelle nous parlons de "risque equation" car plus celui-ci est petit, mieux c'est. In extenso, plus equation est grand, moins il y a de risque de confondre l'hypothèse nulle et alternative. Raison pour laquelle equation est appelé "puissance du test" (voir plus bas la section qui est consacrée à cette notion).

Nous acceptons l'hypothèse nulle si la p-value est plus grande que 5% (0.05). Au fait, plus la p-value est grande, mieux c'est car l'intervalle de confiance est de plus en plus petit. Si l'intervalle de confiance vient à être énorme (très proche de 100%) car la p-value est très petite alors l'analyse n'a plus vraiment de sens physiquement parlant!

Ainsi, si la p-value est faible, c'est qu'il faudrait prendre un risque faible de se tromper, donc accepter dans presque tous les cas l'hypothèse testée...

Remarque:

Nous ne devrions jamais dire que nous "acceptons" une hypothèse ou encore qu'elle est "vraie" ou "fausse" car ces termes sont trop forts et pourraient faire penser à une preuve scientifique. Nous devrions dire si nous "rejetons" ou "ne rejetons pas" l'hypothèse nulle et qu'elle est éventuellement "correcte" ou "non correcte".

Pour les test d'hypothèses bilatéraux, nous pouvons par exemple dire que nous avons (ou n'avons pas) une différence significative entre la valeur de référence mesurée et la valeur attendue. Pour les tests unilatéraux, nous pouvons dire que la valeur de référence mesurée est significativement plus grande ou plus petite que la valeur attendue.

Par ailleurs si le lecteur a bien compris la construction des tests d'hypothèses, le fait de rejeter une hypothèse à tort ("Erreur de Type I" ou "Erreur de première espèce") est donc plus robuste que de l'accepter à tort ("Erreur de type II" ou "Erreur de deuxième espèce").

Le lecteur remarquera aussi en s'aidant de la figure précédent qu'un test unilatéral a une plus forte puissance qu'un test unilatéral (a même niveau de risque bien entendu!). Ainsi, une différence non statistiquement significative en test bilatéral, peut s'avérer statistiquement significative en unilatéral.

Définitions:

D1. La probabilité equation de l'erreur de Type I (de première espèce/faux négatif) est la probabilité de rejet de l'hypothèse nulle alors qu'elle est vraie.

D2. La probabilité equation de l'erreur de Type II (de deuxième espèce/faux positif) est la probabilité de maintien de l'hypothèse nulle alors qu'elle est fausse.

Ainsi, un critère traditionnel de sélection de test est d'utiliser le principe suivant: parmi tous les tests qui ont la même grandeur de l'erreur de type I, choisir celui qui a la plus petite grandeur de l'erreur de type II.

En général, la grandeur de l'erreur de type II augmente lorsque celle de l'erreur de type I diminue. Nous ne pouvons pas minimiser les deux erreurs à la fois. Pour cette raison, nous prenons souvent une valeur donnée pour equation, la grandeur de l'erreur de type I, et nous minimisons equation, la grandeur de l'erreur de type II.

Pour clore, voici les trois situations types de tests d'hypothèses sur la statistique qu'est la moyenne dans le cadre d'une distribution sous-jacente normale et dont l'espérance est dans ce cas particulier supposée nulle et de variance unitaire (car on peut très souvent ce ramener à ce cas particulier en centrant et réduisant la variable aléatoire sous-jacente):

equation
Figure: 7.14 - Les trois scénarios possibles d'un test d'hypothèse sur la moyenne

Indiquons que cela n'a aucun sens (contrairement à ce que nous pouvons parfois lire sur certains supports papier ou électronique) d'avoir les hypothèses nulles suivantes dans le cas paticulier représenté ci-dessus:

equation   (7.336)

avec l'hypothèse alternative qui en découle automatiquement (je ne l'ai pas écrite car c'est inutile). La raison en est simple: comment pourriez-vous positioner votre distribution Normale centrée réduite si l'espérance n'est pas fixée...??? Raison pour laquelle l'hypothèse nulle dans le cadre des tests sur la moyenne (et d'un certain autre nombre de tests) est toujours une égalité!

Pour résumer, nous pouvons dire que si nous prenons une décision, nous pouvons nous tromper et il vaut mieux éviter de se tromper souvent. En clair, la probabilité de dire une bêtise doit être connue et de préférence petite.

pUISSANCE D'UN TEST

Lorsque l'effet est concrètement important, on imagine bien qu'il faut moins d'observations pour le démontrer que lorsqu'il est petit... mais combien au juste? A-t-on les moyens, en termes de nombre de mesures, de démontrer ce que l'on cherche? Faut-il s'y prendre autrement et changer le dispositif de son observation/expérimentation?

Pour étudier plus en détails la notion de "puissance de test" que nous avons jusque là uniquement mentionnée, rappelons la figure suivante déjà rencontrée juste un peu plus haut:

equation

Dans l'exemple particulier ci-dessus, nous allons donc rejeter l'hypothèse nulle si equation ou si equation. Imaginons que dans le cadre de l'hypothèse alternative, si nous avons mesuré 2.5, nous aurons comme puissance du test:

equation   (7.337)

Donc le test est relativement puissant (dans la pratique, nous considérons un test comme étant puissant si sa valeur est au-delà de 80%). Ainsi, nous remarquons que la puissance equation (a posteriori!) est d'autant plus grande que la p-value sera petite (et respectivement la puissance sera à posteriori d'autant plus petite que la p-value sera grande). Donc la puissance a posteriori est en correspondance décroissante avec la p-value (dans la pratique il est cependant un peu absurde de faire ces calculs a posteriori).

PUISSANCE DU TEST Z À 1 ÉCHANTILLON

En toute généralité, dans le cas d'un test bilatéral, la relation précédente s'écrira donc:

equation   (7.338)

Si l'écart-type de la moyenne n'est pas été unitaire, nous avons:

equation   (7.339)

Il vient donc:

equation   (7.340)

autrement écrit:

equation   (7.341)

C'est sous cette forme que nous retrouvons la puissance d'un test bilatéral de la moyenne (puissance Z à 1 échantillon):

equation   (7.342)

d est parfois appelé la "taille d'effet" et est donc donné par:

equation   (7.343)

et equation est nommé la "différence"!

Il va de soit que si la variance vraie n'est pas connue, il faut alors remplacer la loi Normale par la loi de Student tel que:

equation   (7.344)

avec:

equation   (7.345)

Remarque: Attention à un petit piège courant! Le développement ci-dessus correspond à un equation qui est donc négatif relativement à l'exemple de départ! La relation est un peu différente dans le cas où equation est positif mais cela n'a aucune importance car la puissance du test est identique valeur absolue!

Pour avoir la taille de l'échantillon c'est assez simple. Nous avons:

equation   (7.346)

et donc en bilatéral:

equation   (7.347)

où nous voyons que si la puissance du test est imposée comme étant égale à 50%, ayant Z qui vaut alors 0 nous retombons (!)sur la relation de l'effectif de l'échantillon pour loi Normale démontrée bien plus haut:

equation   (7.348)

Signalons aussi que nous retrouvons parfois dans la littérature la relation antéprécédente sous la forme suivante:

equation   (7.349)

Évidemement nous pouvons fixer d'autres paramètres pour déterminer la valeur de la variable restante. Nous pourrions par exemple chercher la valeur de la puissance du test en imposant l'écart-type, la taille de l'échantillon et le niveau de confiance, etc.

Un lecteur nous a proposé une maniètre très élégante de retrouver le même résultat avec beaucoup moins de développements... Effectivement, il suffit de voir sur la figure précédente que nous avons:

equation   (7.350)

Donc nous tirons immédiatement une relation équivalement aux deux précédentes (qui donne bien évidemment le même résultat numérique):

equation   (7.351)

Remarque: Le lecteur attentif aura peut-être remarqué que nous avons supposé dans les développements qui précédent que l'écart-type de la moyenne vraie et aternative (estimée) est implicitement supposée être la même... Dans la pratique cela est presque tout le temps le cas, raison pour laquelle les quasi totalité des logiciels de statistiques ne demandent qu'un seul écart-type pour le calcul de la puissance du test Z à 1 échantillon. Cependant, dans certains rares logiciels universitaires, on demande l'écart-type des deux moyennes. Mais dès lors les développements ci-dessus sont différents.

Une analyse de puissance peut avoir plusieurs facettes:

1. Nous connaissons le niveau du test, la taille d'échantillon et la taille d'effet (implicitement la différence) et nous cherchons à calculer la puissance. Ceci permet de voir si notre dispositif expérimental est bien calibré.

2. Nous connaissons la puissance voulue, le niveau du test et la taille d'effet à détecter. Nous cherchons alors à calculer la taille d'échantillon nécessaire pour monter un dispositif expérimental efficace.

3. Nous connaissons la puissance voulue, le niveau du test et la taille d'échantillon et nous cherchons à vérifier qu'elle taille d'effet nous pouvons espérer mettre en évidence.

Sauf exception, nous considèrerons qu'il est inutile de montrer un test si la puissance escomptée est inférieure à 80%. Cette puissance correspond à une probabilité de 80% de ne pas rejeter l'hypothèse nulle à tort, ou, ce qui revient au même de 20% d'erreur de type II.

Évidemment, il est possible de faire le même raisonnement (analytiquement quand c'est possible, sinon numériquement) avec absolument TOUS les tests d'hypothèses que nous avons vus jusqu'à maintenant. Donc au même titre qu'il y a un peu plus d'une centaine de tests d'hypothèses dans le domaine des statistiques comme nous l'avons déjà mentionné... il est évident que nous n'allons pas nous... amuser... à faire les mêmes développements pour tous ces tests mais seulement pour les grands classiques. Tant que nous avons des ordinateurs à notre disposition avec les algorithmes intégrés par des informaticiens/scientifiques, nous pouvons nous passer de refaire tous les développements qui n'apporteraient pas grand chose. Par ailleurs, la majorité des logiciels comportement des outils pour calculer la puissance de 5 à 10 tests le plus souvent.

Remarque: Nous ne traiterons pas des tests statistiques paramétriques de détection des valeurs abérrantes sur ce site comme le test Q de Dixon ou de Grubb pour la simple raison qu'ils ont une origine trop empirique et qu'ils n'ont aucun intérêt analytiquement parlant. Par contre, si des lecteurs insistent, nous pourrons mettre les détails sur ces tests avec les algorithmes détaillés de calcul des valeurs critiques en utilisant un simple tableur et la technique de Monte-Carlo pour n'importe la distribution de leur votre choix (mais pas uniquement selon la loi Normale contrairement à ce qui est écrit dans la majorité des livres).

puissance du test p À 1 ET 2 ÉCHANTILLONS

De même que l'intervalle de confiance de la loi Normale avec écart-type théorique connu (c'est-à-dire sur toute la population), nous pouvons déterminer le nombre d'individus (taille d'échantillon) si nous souhaitons imposer une puissance au test de la proportion à 1 échantillon étudié plus haut. Pour cela, nous utilisons la même technique que pour la puissance du test Z. Nous écrivons alors dans un premier temps:

equation   (7.352)

D'où nous déduisons:

equation   (7.353)

Donc si la puissance est de 50%, nous retrouvons bien:

equation   (7.354)

Pour la puissance du test de la différence de deux proportions (test de la proportion à deux échantillons) dans l'objectif de déterminer la taille de l'échantillon nous sommes obligés de poser equation. Dés lors, les développements obtenus lors de l'étude du test de la différence de deux proportions s'écrivent:

equation   (7.355)

avec:

equation   (7.356)

De la même manière que nous l'avons fait pour le test Z et le test p à 1 échantillon, nous avons:

equation   (7.357)

Soit:

equation   (7.358)

Ce qui revient donc à supposer que la différence vraie des deux proportions est la moyenne (ce qui est discutable...).

Mais nous avons aussi (comme les échantillons sont indépendants de par la propriété de la variance):

equation   (7.359)

Soit:

equation   (7.360)

ce qui nous donne:

equation   (7.361)

Nous avons alors après réarrangement:

equation   (7.362)

ANALYSE DE LA VARIANCE (À UN FACTEUR)

L'objectif de l'analyse de la variance (contrairement à ce que son nom pourrait laisser penser) est une technique statistique permettant de comparer les moyennes de deux populations ou plus (très utilisé dans le pharma ou dans les labos de R&D ou de bancs d'essais). Cette méthode, néanmoins, doit son nom au fait qu'elle utilise des mesures de variance afin de déterminer le caractère statistiquement significatif, ou non, des différences de moyennes mesurées sur les populations.

Plus précisément, la vraie signification est de savoir si le fait que des moyennes d'échantillons sont (légèrement) différentes peut être attribué au hasard de l'échantillonnage ou provient du fait qu'un facteur de variabilité engendre réellement des échantillons significativement différents (si nous avons les valeurs de toute la population, nous n'avons rien à faire!). Pour plus d'informations au niveau du vocabulaire et la mise en application, l'ingénieur et le chercheur se reporteront à la norme ISO 3534-3:1999.

Pour l'analyse de la variance appelée "ANOVA à un facteur" (ANalysis Of VAriance) ou "ANAVAR à un facteur" (ANAlyse de la VARiance), ou encore "ANOVA à une voie" ou plus rigoureusement "ANOVA à un facteur fixe avec répétitions" ou encore "ANOVA à une variable catégorielle fixe avec répétition", nous allons d'abord rappeler, comme nous l'avons démontré, que la loi de Fisher-Snedecor est donnée par le rapport de deux variables aléatoires indépendantes qui suivent une loi du Khi-deux et divisée par leur degré de liberté tel que:

equation   (7.363)

et nous allons voir maintenant son importance.

Remarque: Lorsqu'un facteur peut avoir un très grand nombre de niveaux nous considérons le fait d'avoir choisi un niveau du facteur parmi une multitude de possibles comme une sélection aléatoire. Raison pour laquelle nous parlons alors dans ce derniers cas de "facteur aléatoire" qui fait l'objet d'ANOVA particulières étudiées une fois celles à facteurs fixes maîtrisées (par exemple les ANOVA mélengeant facteurs fixes et facteurs aléatoires sont appelées "ANOVA mixtes").

Considérons un échantillon aléatoire de taille n, disons equation issu de la loi equation et un échantillon aléatoire de taille m, disons equation issu de la loi equation.

Considérons les estimateurs du maximum de vraisemblance de l'écart-type de la loi Normale traditionnellement notés dans le domaine de l'analyse de la variance par:

equation et equation   (7.364)

Les statistiques ci-dessus sont celles que nous utiliserions pour estimer les variances si les moyennes théoriques equation étaient connues. Donc nous pouvons utiliser un résultat démontré plus haut lors de notre étude des intervalles de confiance:

equation   (7.365)

Comme les equation sont indépendantes des equation (hypothèse qui implique que la covariance est nulle, la réciproque n'étant pour rappel pas toujours vraie!), les variables:

equation   (7.366)

sont indépendantes l'une de l'autre.

Remarque: Il existe un type d'ANOVA prévu pour le cas où les variables ne sont pas indépendantes (on parle alors de "covariable"). Il s'agit de l'ANCOVA qui signifie "Analyse de la COvariance et de la VAriance" qui utilise un mix entre la régression linéaire (cf. chapitre de Méthodes Numériques) et l'ANOVA. Le but de l'ANCOVA est de supprimer statistiquement l'effet indirect de la covariable.

Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

equation et equation   (7.367)

ainsi que:

equation    et     equation   (7.368)

Nous avons donc:

equation   (7.369)

Soit:

equation   (7.370)

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne théorique est connue. Puisque la fonction de Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors pour un intervalle de confiance donné le test de la manière suivante:

equation   (7.371)

Dans le cas où les moyennes equation sont inconnues, nous utilisons les estimateurs sans biais des variances traditionnellement notés dans le domaine de l'analyse de la variance par:

equation et equation   (7.372)

Pour estimer les variances théoriques, nous utilisons le résultat démontré plus haut:

equation et equation   (7.373)

Comme les equation sont indépendantes des equation (hypothèse!), les variables:

equation   (7.374)

sont indépendantes l'une de l'autre. Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

equation et equation   (7.375)

ainsi que:

equation et equation   (7.376)

Nous avons donc:

equation   (7.377)

Soit:

equation   (7.378)

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne empirique est connue. Puisque la fonction de Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors pour un intervalle de confiance donné le "test de Fisher" de la manière suivante:

equation   (7.379)

tout en se rappelant que son utilisation nécessite implicitement des contraintes de normalité des variables étudiées.

R. A. Fisher (1890-1962) est, comme Karl Pearson, l'un des principaux fondateurs de la théorie moderne de la statistique. Fisher étudia à Cambridge où il obtint en 1912 un diplôme en astronomie. C'est en étudiant la théorie de l'erreur dans les observations astronomiques que Fisher s'intéressa à la statistique. Fisher est l'inventeur de la branche de la statistique appelée l'analyse de la variance.

Au début du 20ème siècle, R. Fischer développe donc la méthodologie des plans d'expérience (cf. chapitre de Génie Industriel). Pour valider l'utilité d'un facteur, il met au point un test permettant d'assurer que des échantillons différents sont de natures différentes. Ce test est basé sur l'analyse de la variance (des échantillons), et nommé ANOVA (analyse normalisée de la variance).

Prenons k échantillons de n valeurs aléatoires chacun. Chacune des valeurs étant considérée comme une observation ou une mesure de quelque chose ou sur la base de quelque chose (un lieu différent, ou un objet différent... bref: un seul et unique facteur de variabilité entre les échantillons!). Nous aurons donc un nombre total de N d'observations (mesures) donné par:

equation   (7.380)

si chacun des échantillons a un nombre identique de valeurs n (taille de l'échantillon) tel que equation nous parlons alors de "plan équilibré" à k niveaux (ou k modalités).

Remarque: Si nous avons plusieurs facteurs de variabilité (par exemple: chaque lieu compare à lui-même plusieurs laboratoires), nous parlerons alors d'ANOVA multifactorielle. Dès lors, s'il n'y a que deux facteurs de variabilité, nous parlons d'ANOVA à deux facteurs (voir plus loin pour plus de détails les différentes ANOVA à deux facteurs).

Nous considérerons que chacun des k échantillons est issu (suit) d'une variable aléatoire suivant une loi Normale.

Facteur 1

Échantillon 1

Échantillon 2

Échantillon...i

Échantillon k

equation

equation

...

equation

equation

equation

...

equation

...

...

equation

...

equation

equation

...

equation

Moyenne: equation

Moyenne: equation

Moyenne: equation

Moyenne: equation

Figure: 7.15 - Structure typique dite "croisée" d'une analyse de la variance à 1 facteur

En termes de test, nous voulons tester si les moyennes des k échantillons de taille n sont égales sous l'hypothèse que leurs variances sont égales. Ce que nous écrivons sous forme d'hypothèse de la manière suivante:

equation   (7.381)

Autrement dit: les échantillons sont représentatifs d'une même population (d'une même loi statistique). C'est-à-dire que les variations constatées entre les valeurs des différents échantillons sont dues essentiellement au hasard. Pour cela nous étudions la variabilité des résultats dans les échantillons et entre les échantillons. Il revient exactement au même de poser que (formulation qu'on retrouve dans certains articles ou ouvrages):

equation   (7.382)

Nous noterons donc pour la suite i l'indice d'échantillon (de 1 à k) et j l'indice de l'observation (de 1 à n). Donc equation sera la valeur de la j-ème observation de l'échantillon de données numéro i (nous avons choisi d'inverser la notation d'usage donc attention à ne pas vous tromper par la suite... nous sommes désolés... c'était une bêtise!).

Selon l'hypothèse susmentionnée, nous avons:

equation   (7.383)

Nous noterons par equation la moyenne empirique/estimée (arithmétique) de l'échantillon i (souvent appelée "moyenne marginale"):

equation   (7.384)

et equation la moyenne empirique/estimée des N valeurs (soit la moyenne des equation) donnée donc par:

equation   (7.385)

En utilisant  les propriétés de l'espérance et de la variance déjà démontrées plus haut nous savons que:

equation    et    equation   (7.386)

avec equation qui est la moyenne des moyennes vraies equation:

equation   (7.387)

Maintenant, introduisons 3 variances:

1. La "variance totale" comme étant intuitivement la variance estimée sans biais en considérant l'ensemble des N observations comme un seul échantillon:

equation   (7.388)

où le terme au numérateur est appelé "somme des carrés des écarts totaux".

2. La "variance entre échantillons" (c'est-à-dire entre les moyennes des échantillons) est aussi intuitivement l'estimateur de la variance des moyennes des échantillons:

equation   (7.389)

où le terme au numérateur est appelé "somme des carrés des écarts entre échantillons".

Comme nous avons démontré que si toutes les variables sont identiquement distribuées (même variance) et indépendantes la variance des individus vaut n fois celle de la moyenne:

equation   (7.390)

alors la "variance des observations" (variables aléatoires dans un échantillon) est donnée par:

equation   (7.391)

Nous avons donc ci-dessus l'hypothèse de l'égalité des variances qui est exprimée sous forme mathématique pour les développements à suivre.

3. La "variance résiduelle" est l'effet des facteurs dits non contrôlés. C'est par définition la moyenne des variances des échantillons (en quelque sorte: l'erreur standard):

equation   (7.392)

où le terme au numérateur est appelé "somme des carrés des écarts des résidus" ou encore plus souvent "erreur résiduelle".

Au final, ces indicateurs sont parfois résumés sous la forme suivante:

equation   (7.393)

Remarquons que si les échantillons n'ont pas la même taille (ce qui est rare dans la pratique), nous avons alors:

equation   (7.394)

Remarques:

R1. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SST signifiant en anglais "Sum of Squares Total" ou plus rarement TSS pour "Total Sum of Squares".

R2. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SSB signifiant en anglais "Sum of Squares Between (samples)" ou plus rarement SSk pour "Sum of Squares Between treatments".

R3. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SSW signifiant en anglais "Sum of Squares Within (samples)" ou plus rarement SSE pour "Sum of Squares due to Errors".

Indiquons que nous voyons souvent dans la littérature (nous réutiliserons un peu plus loin cette notation):

equation   (7.395)

avec donc l'estimateur sans biais de la variance des observations:

equation   (7.396)

Avant d'aller plus loin, arrêtons-nous sur la variance résiduelle. Nous avons donc pour des échantillons qui ne sont pas de même taille:

equation   (7.397)

Cette écriture est souvent appelée "variance groupée" ("pooled variance" en anglais).

Ouvrons maintenant une petite parenthèse... Prenons le cas particulier de deux échantillons seulement:

equation   (7.398)

Soit en introduisant l'estimateur du maximum de vraisemblance de la variance:

equation   (7.399)

Nous pouvons d'ailleurs observer que dans le cas particulier où:

equation   (7.400)

alors:

equation   (7.401)

Donc:

equation   (7.402)

Supposons maintenant que nous souhaitions comparer avec un certain intervalle de confiance la moyenne de deux populations ayant une variance différente pour savoir si elles sont de natures différentes ou non.

Nous connaissons pour le moment deux tests pour vérifier les moyennes. Le test-Z et le test-T. Comme dans l'industrie il est rare que nous ayons le temps de prendre des grands échantillons, concentrons-nous sur le deuxième que nous avions démontré plus haut:

equation   (7.403)

Et rappelons aussi que:

equation   (7.404)

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

equation   (7.405)

alors la soustraction (différencier) des moyennes donne (propriété de stabilité de la loi Normale):

equation   (7.406)

Donc pour la différence de deux  moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

equation   (7.407)

Et maintenant l'idée est de prendre l'approximation (sous l'hypothèse que les variances sont égales):

equation   (7.408)

Cette approximation est appelée "hypothèse homoscédastique".

Nous avons alors l'intervalle de confiance (en supposant que nous n'avons à notre connaissance qu'un estimateur de la variance) suivant en se rappelant que la soustraction ou la somme de deux variables aléatoires indépendantes implique que leurs variances s'additionnent toujours (et donc il en va de même pour les degrés de liberté de la loi de Student y relative comme nous l'avons démontré plus haut suite à la liaison directe avec la loi du khi-2):

equation   (7.409)

avec:

equation   (7.410)

Comme l'idée dans la pratique est souvent de tester l'égalité des moyennes théoriques (et donc que leur différence est nulle) à partir des estimateurs connus alors:

equation   (7.411)

Dans la plupart des logiciels disponibles sur le marché, le résultat est uniquement donné à partir du fait que le equation que nous avons est compris dans le equation correspondant à l'intervalle de confiance donné rappelons-le par:

equation   (7.412)

dans le cas de l'hypothèse homoscédastique (égalité des variances/homogénéité des variances).

Remarque: Cette dernière relation est appelée "independent 2-sample T-test", ou "test-T homoscédastique" ou encore "test-T d'égalité des espérances de 2 observations avec variances égales" ou encore plus simplement mais un peu abusivement "test-T à 2 échantillons", avec taille des échantillons différentes et variances égales. Souvent dans la littérature, les deux moyennes théoriques sont égales lors de la comparaison. Il s'en suit que nous avons alors:

equation   (7.413)

Sinon, dans le cas plus général de l'hypothèse d'hétéroscédasticité (non égalité des variances), nous écrivons explicitement (nous reviendrons là-dessus lors de notre étude du test de Welch plus loin....):

equation   (7.414)

Donc:

equation   (7.415)

Remarque: La relation antéprécédente est appelée "independent two-sample T-test", ou "test-T hétéroscédastique" ou encore "test d'égalité des espérances: deux observations avec variances différentes". Si la taille des échantillons est égale et que les variances le sont aussi et que nous supposons les deux moyennes théoriques égales lors de la comparaison, il s'ensuit que nous avons alors:

equation   (7.416)

Bref, fermons cette parenthèse et revenons à nos moutons... Nous en étions donc au tableau suivant:

equation   (7.417)

où nous avons donc dans le cas d'échantillons de même taille:

equation   (7.418)

Ainsi que l'erreur totale qui est la somme de l'erreur des moyennes (interclasses) et de l'erreur résiduelle (intra-classes) et ce que les échantillons soient de même taille ou non:

equation   (7.419)

Comme implicitiement (indirectement) il s'agit de la variance, nous parlons alors de "décomposition de la variance".

Effectivement:

equation   (7.420)

Or, nous avons:

equation   (7.421)

car:

equation   (7.422)

Donc:

equation   (7.423)

Maintenant, sous l'hypothèse forte (qui va nous être indispensable un peu plus loin) que les variances vraies sont liées par la relation:

equation   (7.424)

et donc que leurs estimateurs respectifs sont asymptotiquement égaux... ce qui dans la pratique n'est approximativement vrai que lorsque certaines conditions sont satisfaites (raison pour laquelle il faut absolument avant de faire une ANOVA exécuter un calcul de la puissance et de l'effectif d'une ANOVA!) nous avons:

equation   (7.425)

ce qui découle immédiatement de la démonstration que nous avions faite lors de notre étude de l'inférence statistique avec la loi du Khi-deux où nous avions obtenu (pour rappel):

equation   (7.426)

Pour déterminer le nombre de degrés de liberté de la loi du Khi-deux de:

equation   (7.427)

Nous allons utiliser le fait que (par le même raisonnement que pour la relation antéprécédente):

equation   (7.428)

et que puisque equation, nous devons alors avoir:

equation   (7.429)

Il s'ensuit de par la propriété de linéarité du Khi-deux:

equation   (7.430)

Donc pour résumer nous avons:

equation    et     equation   (7.431)

C'est maintenant qu'intervient la loi de Fisher dans l'hypothèse où les variances sont égales! Puisque:

equation et equation   (7.432)

Ce que nous souhaitons faire c'est voir s'il y a une différence entre la variance des moyennes (interclasses) et la variance résiduelle (intra-classes). Pour comparer deux variances lorsque les moyennes vraies sont inconnues nous avons vu que le mieux était d'utiliser le test de Fisher. Or, nous avons démontré dans notre étude de la loi de Fisher un peu plus haut que:

equation   (7.433)

où dans notre cas d'étude:

equation   (7.434)

Comme il existe des dizaines de types différentes d'ANOVA il faut bien comprendre ce choix de la plus simple des ANOVA que nous sommes entrain d'étudier maintenant. Ainsi, si les moyennes sont les mêmes, l'hypothèse nulle est alors que ce rapport des variances est égal à l'unité (sous les conditions déjà susmentionnées bien plus haut). Si F vient à être trop grand à un seuil donné, nous rejetons alors l'hypothèse nulle d'égalité des moyennes (car in extenso les variances vont être fortemement différentes aussi). Donc ici il semble cohérent de comparer les variances entre groupes (numératieur) avec celle dans les groupes (numérateur) mais comme nous le verrons ce n'est pas toujours ce choix qui sera fait (particulièrement dans les ANOVA hiérarchisées).

Au vu de l'hypothèse de la première égalité de le relation ci-dessus (qui précède l'implication), nous comprenons en même temps aussi beaucoup mieux la très grande sensibilité des résultats de l'ANOVA à la non égalité des variances vraies!

Indiquons encore que la relation précédente:

equation   (7.435)

est souvent indiquée dans la littérature sous la forme suivante:

equation   (7.436)

MSk est appelé "Mean Square for treatments" et MSE "Mean Square for Error". Ce rapport va donc nous donner la valeur de la variable aléatoire F (dont le support est pour rappel borné à zéro à gauche). Concernant le choix du test (unilatéral droite/gauche ou bilatéral), remarquons que si les moyennes sont vraiment égales, alors pour tout i:

equation   (7.437)

Donc dans ce cas:

equation   (7.438)

Ce qui nous amène évidemment à immédiatement adopter un test unilatéral droite!

Sinon, en général l'interprétation de cette fraction est donc en gros la suivante: Il s'agit du rapport (normalisé au nombre de degrés de liberté) de la somme de l'erreur des moyennes (interclasses) et de l'erreur résiduelle (intra-classes) ou autrement dit le rapport de la variance interclasse par la variance résiduelle. Ce rapport suit donc une loi de Fisher à deux paramètres donnés par les degrés de liberté des classes respectives.

Remarque: S'il y a seulement deux populations (échantillons), il faut bien comprendre qu'à ce moment l'utilisation du test-T de Student suffit amplement et est considéré comme équivalent! Au fait, l'ANOVA est une comparaison indirecte des moyennes, Student une comparaison directe... il est donc évident de deviner lequel est le mieux dans cette situation particulière!

Tous les calculs que nous avons faits sont très souvent représentés dans les logiciels sous la forme d'une table standardisée dont voici la forme et le contenu (c'est ainsi que le présente Microsoft Excel 11.8346 ou Minitab 15.1.1 par exemple):

 

Source

Somme des carrés

ddl du equation

Moyenne des carrés

F

Valeur critique Fc

Inter-Classe

equation

k-1

equation

equation

equation

Intra-Classe

equation

N-k=k(n-1)

equation

   

Total

equation

N-1=kn-1

     

Tableau: 7.2  - Terminologie et paramètres traditionnels d'un Tableau ANOVA (TAV) à un facteur

ainsi, pour que l'hypothèse nulle ne soit pas rejetée, il faut que la valeur de:

equation   (7.439)

soit plus petite ou égale au centile de la même loi F avec une probabilité cumulée correspondante à 1 soustrait de niveau de confiance equation.

La valeurs choisie du F critique est un peu malheureuse à mon avis dans les tableaux d'ANOVA (mais bon une fois que l'on sait que c'est ainsi...). Il est peut-être plus aisé de comprendre cette valeur si nous l'introduisons ainsi (le test unilatéral à droite ressort pédagogiquement mieux à mon avis):

equation   (7.440)

Il faut donc pour que le test ne soit pas rejeté que:

equation   (7.441)

Donc la valeur critique de F correspond simplement et bêtement à la probabilité cumulée de la p-value.

Il faut cependant bien se rappeler que pour utiliser l'ANOVA, on doit donc supposer que les échantillons sont issus d'une même population (données appariées) et suivent une loi normale. Il est donc nécessaire de vérifier la normalité des distributions et l'homoscédasticité (test de Levene par exemple). Dans le cas contraire, il faut utiliser des variantes non paramétriques de l'analyse de variance (ANOVA de Kruskal-Wallis ou ANOVA de Friedman). Ces tests ne sont pas encore démontrés en détails à ce jour sur le site.

Remarques:

R1. À noter que dans la pratique, la variance inter-classe est très souvent nommée "variance inter-laboratoires" et la variance intra-classe est in extenso souvent nommée "variance intra-laboratoire".

R2. Il existe en ce début de 21ème siècle plus de 50 test ou procédures de comparaison de variances. L'opinion varie parmi les auteurs quant à leur pertinence et l'efficacité des tests d'homogénéité de variance (THV). Certains affirment que ces derniers sont indispensables à réaliser avant toute ANOVA, d'autres disent que ces tests sont de toute façon de piètre performance, l'ANOVA étant plus robuste aux écarts d'homoscédasticité que ce qui peut être détecté par les THV, particulièrement en cas de non-normalité. En fait, toutes ces questions se rapport au problème dit de Behrens-Fisher, qui est celui de la comparaison de moyennes sans supposer l'équivariance. Cependant parmis la cinquantaine de tests existants, plusieurs études comparatives ont permis de dégager les tests suivants: Test de Bartlett, Levene et Brown-Forsythe.

R3. Lorsque certains niveaux d'un facteur sont réunis en un seul pour être comparés à un niveau de référence les statisticiens parlent alors de création de "contrastes". Par exemple un niveau: "groupe témoin" est comparé à un niveau qui est la réunion de plusieurs niveaux qui sont initialement "groupe test 1", "groupe test 2" et "groupe test 3". Dans ce dernier cas nous avons affaire bien évidemment à une ANOVA désquilibrée.

ANALYSE DE LA VARIANCE (ANOVA À DEUX FACTEURS SANS RÉPÉTITION)

Nous allons voir maintenant le concept d'interaction qui est fondamental pour bien comprendre ce qu'il y a derrière l'ANOVA à deux facteurs (fixes) (ou "ANOVA à deux variables catégorielles fixes") sans et surtout avec répétition. Effectivement, ce n'est qu'avec l'ANOVA à deux facteurs avec répétition – par construction mathématique - que l'on peut statistiquement (sous certaines hypothèses) étudier objectivement si deux ou plusieurs facteurs interagissent de manière significative ensemble.

Il nous faut donc, avant de passer à la partie mathématique pure, introduire quelques notions:

Définitions:

D1. Nous disons qu'il y a "absence d'interaction" quand la moyenne des réponses d'un facteur en fonction de ses niveaux varie de la même amplitude et avec le même signe que la moyenne des réponses d'un autre facteur en fonction de ses niveaux. Nous disons alors que les courbes de réponses dans le diagramme des interactions sont parallèles.

Remarque: Le parallélisme des courbes de réponses est normal en situation d'absence d'interaction, car cela signifie que quel que soit le niveau de l'un ou l'autre des facteurs, la variation (si elle existe) de la réponse sera toujours de la même amplitude. Ce qui est caractéristique de l'indépendance (du moins localement).

D2. Nous disons que deux facteurs sont "en interaction" quand la moyenne des réponses d'un facteur en fonction de ses niveaux ne varie pas de la même amplitude ou/et pas avec le même signe que la moyenne des réponses d'un autre facteur en fonction de ses niveaux. Nous disons alors que les courbes de réponses dans le diagramme des interactions ne sont pas parallèles.

Remarque: L'absence d'interaction est une hypothèse très forte et une observation rare. Souvent, nous avons des interactions ou de fortes interactions.

Pour comprendre le concept, nous aurons recours à de petits exemples sans répétition qui permettront de se faire une idée qualitative du phénomène mais en aucun cas une approche scientifique de l'interaction.

À chaque fois nous visualiserons les situations au moyen de deux types de représentations: un graphique illustrant les effets principaux d'une part et un diagramme des interactions d'autre part.

Considérons le petit tableau suivant avec deux facteurs à deux niveaux ("variables explicatives") comportant donc 4 cellules ("variables d'intérêt"):

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

3

3

Niveau 2

3

3

Tableau: 7.3 - Premier exemple d'une petite ANOVA à deux facteurs sans répétition

Nous aurons comme représentations avec un logiciel comme Minitab:

equation
Figure: 7.16 - Graphique des effets principaux avec Minitab 15

Nous voyons bien qu'aucun facteur n'a un effet principal sur quoi que ce soit. Ce qui est relativement intuitif étant donné le contenu de tableau précédent.

Le diagramme des interactions (appelé souvent "profileur" dans l'industrie) donne lui:

equation
Figure: 7.17 - Diagramme des interactions avec Minitab 15

où nous pouvons constater que les facteurs n'interagissent pas entre eux (ou se neutralisent c'est selon...). Nous disons alors qu'il n'y a "(a priori) aucun effet ni aucune interaction (localement)". Au fait dans certaines expériences, l'absence d'interaction est une hypothèse très forte et donc souvent rare. Raison pour laquelle il faut faire attention aux mots choisis lors de l'interprétation des graphiques d'interaction (car ne pas passer par les calculs purs est délicat pour cette étape voire non scientifique!).

Maintenant considérons le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

2

2

Niveau 2

4

4

Tableau: 7.4 - Deuxième exemple d'une petite ANOVA à deux facteurs sans répétition

Il nous paraît clair que le Facteur 1 à travers la prise en compte de son niveau semble avoir une influence sur la réponse. Mais voyons les différentes représentations:

equation
Figure: 7.18 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Détaillons plus le premier graphique comme l'a proposé un lecteur:

Ce graphique comporte 2 parties: celle de gauche analyse les effets du facteur 1 à travers ses 2 niveaux ; celle de droite en fait de même pour le facteur 2.

Examinons de plus près la partie de gauche:

Nous y voyons 2 points reliés par un segment de droite. Ici le premier point, celui pour le niveau 1, est situé à l'ordonnée 2 alors que le deuxième point, celui pour le niveau 2, est situé à l'ordonnée 4. Rappelons-nous maintenant que chaque point représente une moyenne. Ainsi l'ordonnée du premier point est bien située à la moyenne de (2 + 2) / 2 = 2.

Ceci étant dit et en espérant que cela a aidé à une meilleure compréhension, revenons à nos moutons…

Il apparaît assez clairement dans le graphique du dessus que seul le niveau du Facteur 1 influence la réponse, alors que le Facteur 2 n'influence en rien la réponse. Nous disons alors qu'il y a effet principal (localement) du Facteur1.

Sur le diagramme des interactions, nous avons la même information, mais sous une forme différente. Nous voyons que quel que soit le niveau du Facteur 2, les réponses sont horizontales et donc que celui-ci n'influence en rien les résultats. Nous sommes alors dans une situation où "(a priori) l'effet principal est (localement) le Facteur 1 et en absence d'interactions entre les facteurs".

Voyons maintenant le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

4

2

Niveau 2

4

2

Tableau: 7.5 - Troisième exemple d'une petite ANOVA à deux facteurs sans répétition

Nous pouvons cette fois observer que le Facteur 2 a une influence mais pas le Facteur 1. Mais voyons aussi cela avec nos 2 types de représentations:

equation
Figure: 7.19 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique que le Facteur 1 n'a aucune influence. Sur le diagramme du dessous c'est moins évident mais la superposition des deux droites montre que le Facteur 1 n'a pas d'influence. Nous disons alors qu'il y a "(a priori) effet principal (localement) du Facteur 2 et absence d'interactions entre les facteurs".

Considérons maintenant le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

3

1

Niveau 2

5

3

Tableau: 7.6 - Quatrième exemple d'une petite ANOVA à deux facteurs sans répétition

Nous voyons que les deux facteurs ont une influence sur la réponse. Ce que montrent bien les deux représentations ci-dessous:

equation
Figure: 7.20 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique du dessus que le Facteur 1 a une influence sur la réponse et qu'il en est de même du Facteur 2 (et en plus de la même amplitude quel que soit le sens!). Sur le graphique du dessous c'est moins évident mais la même conclusion est valable. Nous disons alors que "(a priori) les deux facteurs sont (localement) significatifs et sans interactions".

Passons au tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

2

4

Niveau 2

4

2

Tableau: 7.7 - Cinquième exemple d'une petite ANOVA à deux facteurs sans répétition

qui sous cette forme n'est pas trivial à interpréter. Mais avec les représentations nous avons tout de suite des informations plus pertinentes:


Figure: 7.21 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique ci-dessus qu'aucun des facteurs n'a d'influence sur la réponse a priori (même graphique qu'au tout début avec la même moyenne). Le diagramme du dessous nous donne une information complémentaire par contre (!!!): Les facteurs ont une influence croisée et comme cette influence croisée est de même amplitude, les effets s'annulent. Nous disons alors que les "deux facteurs sont (localement) en interaction F1*F2".

Considérons maintenant le tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

1

3

Niveau 2

5

3

Tableau: 7.8 - Sixième exemple d'une petite ANOVA à deux facteurs sans répétition

Ce qui nous donne les deux représentations suivantes:

equation
Figure: 7.22 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique du dessus que le Facteur 1 semble avoir une influence et que le Facteur 2 non (en moyenne!). Le diagramme des interactions du dessous nous donne, lui aussi, encore une fois, une information complémentaire (!!!): C'est que les facteurs sont en interaction. Nous disons alors que nous avons "(a priori) deux facteurs (localement) en interaction F1*F2 où l'influence du Facteur 1 est significative".

Tableau suivant:

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

3

3

Niveau 2

5

1

Tableau: 7.9 - Septième exemple d'une petite ANOVA à deux facteurs sans répétition

Nous voyons que les deux facteurs ont une influence sur la réponse. Ce que montrent bien les deux représentations ci-dessous:

equation
Figure: 7.23 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous disons ici que nous avons "(a priori) les deux facteurs (localement) en interaction F1*F2 où l'influence du Facteur 2 est significative".

Et enfin un dernier tableau

 

Facteur 2

Facteur 1

Niveau 1

Niveau 2

Niveau 1

1

1

Niveau 2

5

1

Tableau: 7.10 - Huitième exemple d'une petite ANOVA à deux facteurs sans répétition

qui nous donne les deux représentations:

equation
Figure: 7.24 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous disons ici que nous avons "(a priori) les deux facteurs (localement) en interaction F1*F2 où l'influence des deux facteurs est significative".

Remarque: Une croyance (communément répandue) de personnes qui manquent d'expérience dans les laboratoires consiste à penser que pour qu'une interaction soit significative il est nécessaire que les facteurs qui la composent le soient également.

Après tous ces tableaux, passons à partie mathématique:

Nous avons vu précédemment comment effectuer une analyse de la variance à un facteur. Pour rappel, cela consiste donc à faire un test d'égalité des espérances pour k échantillons indépendants de n variables aléatoires chacun (dans le cas où tous les échantillons ont donc le même nombre de mesures). Chaque échantillon étant considéré comme une expérience sur un sujet différent ou identique considéré alors comme un facteur variable indépendant!

Cependant il arrive dans la réalité que pour chaque échantillon on fasse varier un deuxième paramètre, considéré alors comme un deuxième facteur variable. Nous parlons alors bien évidemment d'analyse de la variance à deux facteurs. De plus, nous allons considérer dans un premier temps pour simplifier les calculs que les variables aléatoires sont indépendantes! Donc un facteur n'a pas d'influence sur l'autre!!! En d'autres, termes il n'y a pas d'interaction entre les facteurs. Nous parlons alors d'une "ANOVA à deux facteurs sans interactions".

Afin de déterminer la formulation du test à effectuer, rappelons que pour l'analyse de la variance à un facteur, nous avions décomposé la variance totale en la somme de la variance des moyennes (interclasses) et de la variance résiduelle (intra-classes) telle que:

equation   (7.442)

en explicitant le fait que nous comparions les échantillons equation:

equation   (7.443)

ce qui nous avait donné au final:

equation   (7.444)

Pour l'ANOVA à deux facteurs nous partirons du tableau suivant ("Éch." est l'abréviation de "Échantillon"):

 

Facteur A

 

Facteur B

Éch.1

Éch.2

Éch....j

Éch.r

 

Éch. 1

equation

equation

...

equation

Moyenne: equation

Éch.2

equation

equation

...

equation

Moyenne: equation

Éch. i

...

...

equation

...

Moyenne: equation

Éch. k

equation

equation

...

equation

Moyenne: equation

 

Moyenne: equation

Moyenne: equation

Moyenne: equation

Moyenne: equation

equation

Figure: 7.25 - Structure typique dite "croisée" d'une analyse de la variance à 2 facteurs sans répétition

pour lequel dans un laboratoire, le facteur maintenu fixe pendant qu'on fera varier l'autre sera appelé le "facteur bloc" et l'autre sera appelé le "facteur de traitement" et dans la pratique on fera en sorte que ce dernier ne soit pas effectué toujours dans le même ordre afin d'éliminer des éventuels effets d'inertie lors du passage d'un traitement à l'autre (les américains désignent les ANOVA à deux facteurs contrôlés sans interactions sous les termes: "randomized block design" (GRBD)).

Pour la suite, toute l'astuce consiste à décomposer la variance totale en comparant l'espérance des lignes (observations) indexées cette fois-ci avec equation et des colonnes (échantillons) indexées avec equation par rapport à la moyenne totale telle que:

equation   (7.445)

Or, nous avons dans un premier temps:

equation   (7.446)

Donc il reste:

equation   (7.447)

Mais nous avons aussi:

equation   (7.448)

Pour la suite, indiquons d'abord que relativement à notre tableau, nous avons:

equation   (7.449)

Il s'ensuit alors que:

equation   (7.450)

et il vient alors immédiatement que nous avons de même:

equation   (7.451)

Donc il reste au final:

equation   (7.452)

ce que nous noterons sur ce site de la manière condensée suivante:

equation   (7.453)

equation sont bien évidemment associés aux effets principaux (comparaison des moyennes marginales avec la moyenne totale).

Donc en comparaison à l'ANOVA à un facteur nous avons un terme supplémentaire pour la variance totale.

Dans l'ordre il est évident que la première somme des écarts par rapport au premier facteur colonne:

equation   (7.454)

aura au même titre que l'ANOVA à un facteur equation degrés de liberté. C'est-à-dire que sous les mêmes hypothèses que l'ANOVA  à un facteur:

equation   (7.455)

La deuxième somme des écarts par rapport au deuxième facteur ligne:

equation   (7.456)

est nouvelle mais cependant on démontre de manière parfaitement identique au premier qu'elle aura equation degrés de liberté. C'est-à-dire que sous les mêmes hypothèses que l'ANOVA  à un facteur:

equation   (7.457)

Pour la troisième somme qui suit obligatoirement aussi une loi du Khi-deux (étant donné que la variance totale suit une loi du Khi-deux et que les deux premiers termes de la somme aussi!):

equation   (7.458)

c'est un peu plus délicat... mais il y a une astuce à la sauce physicienne...! Nous savons de par notre étude de l'ANOVA à un facteur que la somme des degrés de liberté de chaque terme doit être égale au nombre total de degrés de libertés. En d'autres termes, nous devons avoir pour l'ANOVA à deux facteurs:

equation   (7.459)

Donc il manque bien évidemment:

equation   (7.460)

Ainsi:

equation   (7.461)

Donc nous avons alors le tableau suivant:

equation   (7.462)

Enfin, le reste est exactement le même que pour l'ANOVA à un facteur simplement que nous avons deux tests à effecteur cette fois-ci qui sont:

equation et equation   (7.463)

Le choix ci-dessus semble intuitivement judicieux.

Tous les calculs que nous avons faits précédemment sont très souvent représentés dans les logiciels sous la forme d'une table standardisée dont voici la forme et le contenu (c'est ainsi que le présente Microsoft Excel 11.8346 ou Minitab15.1.1 par exemple):

Somme des carrés

ddl equation

Moyenne des carrés

F

Valeur critique F

equation

r-1

equation

equation

equation

equation

k-1

equation

equation

equation

equation

(k-1)(r-1)

equation

   

equation

N-1

 

   
Tableau: 7.11 - Terminologie et paramètres traditionnels d'un Tableau ANOVA (TAV) à deux facteurs sans répétition

et la condition d'acception de l'hypothèse d'égalité des moyennes pour chaque facteur est la même que pour l'ANOVA à un facteur (voir le serveur d'exercice pour un exemple pratique et détaillé avec Microsoft Excel 11.8346).

Nous avons donc deux tests de Fisher permettant chacun de savoir si le facteur A (respectivement B) ont une influence significative ou pas sur les mesures.

Évidemment, dans les développements ci-dessus, les facteurs A et B sont interchangeables dans les développements par symétrie!

ANALYSE DE LA VARIANCE À DEUX FACTEURS À MESURES RÉPÉTÉES

Jusqu'à présent nous avons examiné des ANOVA sur des expériences à un ou deux facteurs fixes (autrement dit: une ou deux variables catégorielles). Dans le cas à deux facteurs, nous avons considéré que pour chaque combinaison de facteurs nous n'avions qu'une seule mesure (cellule). Or, il peut arriver (et c'est préférable) que nous ayons plusieurs mesures pour une combinaison!

Nous qualifions ce type d'étude de "plan expérimental à mesures répétées" et les résultats seront traités avec une analyse de la variance à deux facteurs à mesures répétées et avec interactions! Il s'agit d'un outil extrêmement important puisqu'il permet de valider des études menées par plusieurs laboratoires (ou employés) indépendants et il est également associé à de nombreux autres outils statistiques comme celui de l'étude de la reproductibilité et de la répétabilité (Étude R&R) pour ne citer que le plus connu dans le domaine industriel.

Il faut comprendre qu'il est obligatoire dans le domaine de la statistique d'associer les interactions entre facteurs systématiquement lorsque nous avons affaire à une expérience à mesures répétées. Ceci pour la simple raison que le terme mathématique d'interaction n'apparaît que dans cette situation.

Ainsi, il peut être intuitif (avant même de le démontrer) qu'une ANOVA à deux facteurs (fixes) à mesures répétées (les américains désignent les ANOVA à deux facteurs contrôlés avec interactions sour les termes: "generalized randomized block design" (GRBD)) contient une interaction double, et deux effets principaux. Une ANOVA à trois facteurs (fixes) et à mesures répétées aura in extenso une interaction triple, trois interactions doubles et 3 effets principaux. Et ainsi de suite...

Avant de commencer, nous allons considérer le tableau de mesures suivant où l'abréviation "Éch." fait référence au mot "échantillon":

 

Facteur A

 

Facteur B

Éch. 1

Éch. 2

Éch ...j

Éch. r

Moyenne

  Éch.1

equation

equation

...

equation

 

     Réplication 2

equation

equation

...

equation

 

     Réplication m

...

...

...

...

 

     Réplication n

equation

equation

...

equation

 

  Moyenne Éch. 1

equation

equation

...

equation

equation

  Éch.2

equation

equation

...

equation

 

     Réplication 2

equation

equation

...

equation

 

     Réplication m

...

...

...

...

 

     Réplication n

equation

equation

...

equation

 

  Moyenne Éch. 2

equation

equation

...

equation

equation

  Éch.i

...

...

equation

...

 

     Réplication 2

...

...

...

...

 

     Réplication m

...

...

...

...

 

     Réplication n

...

...

equation

equation

 

  Moyenne Éch. i

...

...

equation

...

equation

  Éch.k

equation

equation

...

equation

 

     Réplication 2

equation

equation

...

equation

 

     Réplication m

...

...

...

...

 

     Réplication n

equation

equation

...

equation

 

  Moyenne Éch. k

equation

equation

...

equation

equation

Moyenne

equation

equation

equation

equation

equation

Figure: 7.26 - Structure typique dite "croisée" d'une analyse de la variance à 2 facteurs avec répétition

avec les propriétés habituelles des moyennes (pour rappel):

equation   (7.464)

Et rappelons que pour l'ANOVA à deux facteurs sans réplications (et donc sans interactions), toute l'astuce avait consisté à décomposer la variance totale en comparant la moyenne des lignes indexées avec equation et des colonnes indexées avec equation par rapport à la moyenne totale.

L'idée va maintenant être à peu près la même à la différence que nous allons comparer l'espérance des lignes indexées avec equation et des colonnes indexées avec equation non seulement par rapport à la moyenne totale mais aussi à celle de chaque ligne et de chaque colonne.

Pour cela nous repartons de ce que nous avions obtenu pour l'ANOVA à deux facteurs sans réplication:

equation   (7.465)

mais dont la notation sera juste adaptée au contexte:

equation   (7.466)

Il est évident qu'avec cette écriture l'ANOVA à deux facteurs sans réplication deviendrait:

equation   (7.467)

Mais dans le cas présent, il nous faut rajouter une sommation pour les réplications et adapter la notation pour les mesures. Donc, sans refaire tous les développements (c'est un peu culotté mais bon...), nous obtenons déjà directement:

equation   (7.468)

où dans l'ordre, m est la réplication de l'échantillon i du facteur A et de l'échantillon j du facteur B.

Il vient alors bien évidemment les variances interclasses pour les facteurs A et B qui sont immédiates:

equation   (7.469)

equation sont bien évidemment encore une fois associées aux effets principaux (comparaisons des moyennes marginales avec la moyenne totale).

Maintenant, nous allons  jouer un peu en introduisant sous la somme, en plus et en moins, dans le dernier terme:

equation   (7.470)

la moyenne des réplications:

equation   (7.471)

que nous retrouverons in fine dans la somme des carrés totale:

equation   (7.472)

Bien entendu, nous reconnaissons assez vite la variance intra-classes (appelée aussi souvent "erreur résiduelle" ou simplement dans le cas particulier de l'ANOVA à deux facteurs avec répétition "erreur de répétabilité"):

equation   (7.473)

et le terme que nous pouvons interpréter (par comparaison avec l'ANOVA à deux facteurs sans répétitions) comme étant la variance d'interaction:

equation   (7.474)

Mais si notre hypothèse est vérifiée (c'est-à-dire que l'ANOVA est balancée),  le terme:

equation   (7.475)

doit s'annuler. Vérifions cela:

equation   (7.476)

et donc pour i et j fixés il vient:

equation   (7.477)

Et donc la sommation sur tous les i et j sera aussi nulle par extension. Ceux qui ont un doute quant à l'annulation des deux termes du développement ci-dessus, pourront peut-être se rassurer en faisant une application numérique.

Donc au final:

equation   (7.478)

où pour rappel, n est donc le nombre de réplications, r le nombre d'échantillons du facteur A et k le nombre d'échantillons du facteur B (ces deux derniers paramètres sont souvent confondus par ceux qui font les calculs à la main). Résultat qui est parfois noté sous la forme suivante dans la littérature:

equation   (7.479)

Donc en comparaison à l'ANOVA à deux facteurs sans réplications, nous avons un terme supplémentaire pour la variance totale.

Dans l'ordre il est évident que la première somme des écarts par rapport au premier facteur colonne:

equation   (7.480)

aura au même titre que l'ANOVA à un facteur et l'ANOVA à deux facteurs sans répétition equation degrés de liberté. C'est-à-dire que sous les mêmes hypothèses que ces deux ANOVA, nous avons:

equation   (7.481)

La deuxième somme des écarts par rapport au deuxième facteur ligne:

equation   (7.482)

aura sous les mêmes hypothèses la propriété:

equation   (7.483)

Grâce au raisonnement effectué à l'aide de l'ANOVA à deux facteurs sans répétition, nous savons que pour le terme d'interaction:

equation   (7.484)

nous avons:

equation   (7.485)

Il reste à déterminer le nombre de degrés de liberté du dernier terme:

equation   (7.486)

Pour ce faire, nous procédons de la même manière qu'avec l'ANOVA à deux facteurs sans répétitions. Nous savons de par notre étude de l'ANOVA à un facteur que la somme des degrés de liberté de chaque terme doit être égale au nombre total de degrés de liberté. En d'autres termes, nous devons avoir pour l'ANOVA à deux facteurs:

equation   (7.487)

Donc il manque bien évidemment:

equation   (7.488)

Ainsi:

equation   (7.489)

Donc nous avons alors le tableau suivant:

equation   (7.490)

Enfin, le reste est exactement le même que pour l'ANOVA à deux facteurs sans réplication simplement que nous avons trois tests à effecteur cette fois-ci qui sont:

equation , equation, equation   (7.491)

Là encore le choix des rations est relativement intuitif!

Tous les calculs que nous avons faits précédemment sont très souvent représentés dans les logiciels sous la forme d'une table standardisée dont voici la forme et le contenu (c'est ainsi que le présente Microsoft Excel 11.8346 ou Minitab 15.1.1 par exemple):

Somme des carrés

ddl equation

Moyenne des carrés

F

Valeur critique F

equation
(bloques)

r-1

equation

equation

equation

equation
(traitements)

k-1

equation

equation

equation

equation
(interactions)

(k-1)(r-1)

equation

equation

equation

equation

N-kr

equation

   

equation

N-1

 

   
Tableau: 7.12 - Terminologie et paramètres traditionnels d'un Tableau ANOVA (TAV) à deux facteurs avec répétition

et la condition d'acception de l'hypothèse d'égalité des moyennes pour chaque facteur est la même que pour l'ANOVA à un facteur (voir le serveur d'exercice pour un exemple pratique et détaillé avec Microsoft Excel 11.8346).

Nous avons donc trois tests de Fisher permettant chacun de savoir si le facteur A (respectivement B ou l'interaction AB) ont une influence significative ou pas sur les mesures.

Évidemment, dans les développements ci-dessus, les facteurs A et B sont interchangeables dans les développements par symétrie!

ANOVA MULTIFACTORIELLE À MESURES RÉPÉTÉES

L'ANOVA multifactorielle à mesures répétées ou appelée aussi "ANOVA multifactorielle à variables catégorielles et mesures répétées" (et très rarement "ANOVA équilibrée") est simplement le nom sous lequel les spécialistes désignent les ANOVA suivantes:

- ANOVA à trois facteurs (fixes) avec ou sans répétition

- ANOVA à quatre facteurs (fixes) avec ou sans répétition

- ANOVA à cinq facteurs (fixes) avec ou sans répétition

- etc.

Évidemment, les ANOVA à un et deux facteurs (fixes) font aussi partie de la famille de l'ANOVA multifactorielle mais elles sont rarement signalées en tant que tel dans les logiciels de statistiques et sont souvent disponibles de façon explicite dans les menus de ces mêmes logiciels (car ce sont les deux plus utilisées dans les écoles). Il faut savoir aussi que la majorité des logiciels de statistiques gèrent des ANOVA multifactorielles jusqu'à 15 facteurs fixes (variables catégorielles) à condition que le plan soit équilibré (c'est à dire que pour chaque niveau de chaque facteur, il y ait un nombre identique de mesures). Un tableur (comme Microsoft Excel) gère le plus souvent les ANOVA jusqu'à un maximum deux facteurs (fixes).

Bon maintenant le lecteur risque d'être déçu (bon je suis aussi déçu de n'avoir qu'une seule vie...) car franchement je ne souhaite pas refaire les développements vus plus haut pour les ANOVA à un facteur et deux facteurs (fixes) pour 3, 4 et ce jusqu'à 15 facteurs car cela prendrait plus de 100 pages A4 sous une forme pédagogique et claire et en plus c'est basé toujours sur la même mécanique de développement (la théorie généralisée de l'ANOVA bien qu'étant beaucoup plus courte, elle est à mon goût indigeste).

Remarque: Les ANOVA non équilibrées (non balancées) nécessitent un choix subtil de la manière de calculer les variances. En fonction de la manière de calculer, nous parlons d'ANOVA de type I, type II ou type III. Le choix de la méthode de calcul est même en ce début de 21ème siècle sujet à de vifs débats entre spécialistes. Raison pour laquelle nous nous abstiendrons d'étudier ce cas-là.

TEST DE C DE COCHRAN

Le test C de Cochran a pour objet la vérification de l'homogénéité des variances concernant plusieurs populations. Il s'agit d'un des tests préalables ou postérieurs (post hoc) utiles avant de faire une ANOVA balancée (équilibrée) et qui est recommandé par la norme ISO 5725 (de même que le test de Tukey que nous verrons beaucoup plus loin).

Bien que l'idée du test de Cochran soit empirique, elle est néanmoins intuitive comme le sont les définitions des tests de Grubbs et Dixon. Pourquoi alors présentons-nous sur ce site en détails le test C de Cochran alors que nous avons mentionné que nous ne le ferions pas pour le test de Grubbs et Dixon? La raison en fait est simple: le test de Grubbs et Dixon nécessitent des simulations par Monte-Carlo pour déterminer les valeurs critiques de rejet ou d'acceptation de l'hypothèse nulle, alors que la valeur critique du test C de Cochran peut être obtenue relativement facilement analytiquement.

Ceci étant dit..., nous définissons le test C de Cochran par le rapport:

equation   (7.492)

où les equation sont les variances non biaisées des différentes sources de données au nombre de N composées chacune de n échantillons et l'hypothèse nulle est intuitivement l'égalité des variances contre l'hypothèse alternative qui est qu'une des variances est trop grande (donc mauvaise) et rejetée parce que aberrante.

La norme ISO 5725 recommande de réitérer ce test jusqu'à ce qu'il n'y ait plus aucune variance aberrante (donc trop grande ET éloignée des autres variances).

Pour déterminer la valeur critique, inversons la définition du test C de Cochran et faisons quelques manipulations algébriques élémentaires:

equation   (7.493)

Nous remarquons qu'à peu de choses près, le deuxième terme de la dernière égalité ressemble presqu'à une loi de Fisher. Comme la loi de Fisher n'est pas stable par l'addition, il faudrait que nous trouvions une manière de transformer le terme:

equation   (7.494)

en une variance unique. L'idée est alors relativement simple mais encore fallait-il y penser... Nous savons que les equation sont des variances non biaisés avec un facteur equation. Donc si les N échantillons (niveaux) sont tous indépendants, la variance globale est alors par stabilité de la loi Normale et en reprenant les notations de l'ANOVA:

equation   (7.495)

Dès lors:

equation   (7.496)

Nous reconnaissons donc dans la dernière égalité le rapport de deux variances au carré. Nous avons alors identiquement à ce que nous avons démontré lors de notre étude de l'ANOVA à un facteur sans réplications:

equation   (7.497)

et donc il vient:

equation   (7.498)

qui est dès lors indépendant de j et donc le test unilatéral gauche (puisque par définition le rapport du test de Cochran doit être le plus petit possible) C de Cochran aura pour valeur critique:

equation   (7.499)

Il y a cependant un petit couac avec la relation précédente. Effectivement, nous savons que nous devons itérer le test plusieurs fois. Mais bien évidemment, plus nous effectuons de test sur un échantillon de données, plus grande est la probabilité de rejeter l'hypothèse nulle à un moment ou à un autre. Ce problème est appelé "inflation du niveau de confiance" et dans la vie réelle nous connaissons bien son application: plus on attend, plus la probabilité qu'un événement rare ait lieu est élevée. Bien évidemment, il faut alors réduire la valeur du seuil mais dès lors cela augmente la difficulté de détecter les vrais effets. Dès lors, la démarche est la suivante.

Si nous considérons un test avec un niveau de signification equation (correspondant donc à la probabilité cumulée de ne pas faire une erreur de type I) et que nous réitérons celui-ci de manière indépendante une deuxième fois. Alors, si les tests sont indépendants, de par l'axiome des probabilités, la probabilité de ne pas faire une erreur du type I sera le produit des probabilités:

equation   (7.500)

et ainsi de suite pour n tests. Nous remarquons alors très vite que la probabilité cumulée de ne pas faire une erreur de type I décroit très vite. Par exemple, pour 10 tests réitérés indépendants avec un niveau de 5%, nous avons alors:

equation   (7.501)

ce qui est catastrophique! Dès lors, si nous voulons un niveau de confiance sur tests réitérés d'une certaine valeur que nous noterons equation, il paraît évident qu'il faut résoudre l'équation suivante:

equation   (7.502)

Soit (relation appelée parfois "équation de Šidàk"):

equation   (7.503)

et avec un développement de Taylor au deuxième ordre il vient (cf. chapitre Suites Et Séries):

equation   (7.504)

que nous appelons "approximation de Bonferroni", parfois "approximation de Boole" ou encore "approximation de Dunn". Donc au final, nous avons:

equation   (7.505)

Que nous pouvons calculer avec la versin anglaise de Microsoft Excel 14.0.6123 à l'aide de la formule:

=1/(1+(N-1)/FINV(ALPHA/N;n-1;(N-1)*(n-1)))   (7.506)

TEST D'AJUSTEMENT (D'ADÉQUATION) DU Khi-deux

Nous allons étudier ici notre premier test d'ajustement non-paramétrique, un des plus connus certainement et des plus simples (qui s'applique seulement à des données non censurées).

Supposons qu'une variable statistique suive une loi de probabilité P. Si nous tirons un échantillon dans la population correspondant à cette loi, la distribution observée, appelée "distribution d'échantillonnage", s'écartera toujours plus ou moins de la distribution théorique, compte tenu des fluctuations d'échantillonnage.

Généralement, nous ne connaissons ni la forme de la loi P, ni la valeur de ses paramètres. C'est la nature du phénomène étudié et l'analyse de la distribution observée qui permettent de choisir une loi susceptible de convenir et d'en estimer les paramètres.

Les écarts entre la loi théorique et la distribution observée peuvent être attribués soit aux fluctuations d'échantillonnage, soit au fait que le phénomène ne suit pas, en réalité, la loi supposée.

En gros, si les écarts sont suffisamment faibles, nous admettrons qu'ils sont imputables aux fluctuations aléatoires et nous accepterons la loi retenue ; au contraire, s'ils sont trop élevés, nous en conclurons qu'ils ne peuvent pas être expliqués par les seules fluctuations et que le phénomène ne suit pas la loi retenue.

Pour évaluer ces écarts et pouvoir prendre une décision, il faut:

1. Définir la mesure de la distance entre distribution empirique et distribution théorique résultant de la loi retenue.

2. Déterminer la loi de probabilité suivie par cette variable aléatoire donnant la distance.

3. Énoncer une règle de décision permettant de dire, d'après la distribution observée, si la loi retenue est acceptable ou non.

Premièrement, nous aurons pour cela besoin du théorème central limite et deuxièmement rappelons que lors de la construction de la loi Normale, nous avons montré que la variable:

equation   (7.507)

suivait une loi Normale centrée réduite lorsque n tendait vers l'infini (condition de Laplace) et que la probabilité p était très petite.

En pratique, l'approximation est tout à fait acceptable... dans certaines entreprises... lorsque  equation  et equation soit (c'était un des termes qui devait tendre vers zéro quand nous avions fait la démonstration):

equation   (7.508)

Par exemple dans les deux figures ci-dessous où nous avons représenté les lois binomiales approchées par les lois Normales associées, nous avons à gauche equation et à droite equation:

equation
Figure: 7.27 - Approche de fonctions binomiales par fonctions Normales associées

Rappelons enfin, que nous avons démontré que la somme des carrés de n variables aléatoires normales centrées réduites linéairement indépendantes suit une loi du Khi-deux à n degrés de liberté noté equation.

Considérons maintenant  une variable aléatoire X suivant une fonction de distribution théorique (continue ou discrète) P et tirons un échantillon de taille n dans la population correspondant à cette loi P.

Les n observations seront réparties suivant k modalités (classes de valeurs) C1, C2, ..., Ck, dont les probabilités p1, p2, ..., pk sont déterminées par la fonction de distribution P (se référer à l'exemple de la droite de Henry).

Pour chaque modalité Ci, l'effectif empirique est lui une variable aléatoire ki de loi binomiale:

equation   (7.509)

Cet effectif ki correspond en effet au nombre de succès "résultat égal à la modalité Ci" de probabilité pi, obtenus au cours des n tirages d'un lot expérimental (et non dans la population de la loi théorique comme avant).

Nous avons démontré lors de l'étude de la loi binomiale que son espérance:

equation   (7.510)

représente l'effectif théorique de la modalité Ci et sa variance est:

equation   (7.511)

car pi est relativement petite, ce qui donne  equation qui est assez proche de 1. Son écart-type est donc:

equation   (7.512)

Dans ces conditions, pourvu que la modalité Ci ait un effectif théorique npi au moins égal à 5, l'écart réduit:

equation   (7.513)

entre effectif empirique et effectif théorique peut être approximativement considéré comme une variable normale centrée réduite comme nous l'avons vu plus haut.

Nous définissons alors la variable:

equation   (7.514)

equationest souvent nommée "fréquence expérimentale" et equation "fréquence théorique".

Si nous prenons le carré c'est parce si nous ne faisions qu'une somme simple certains termes s'annuleraient par effets opposés et masqueraient donc les différences, si nous prenions la somme des valeurs absolue la table statistique de D serait difficile à construire et le test peu robuste à cause du faible écart des distances. Le carré permet donc non seulement d'avoir une table statistique pour D qui est simple puisque basées sur une loi à un seul paramètre comme nous allons le voir et que cela augmente de façon suffisante la robustesse du test (de par le carré de la différence).

Signalons que cette variable est aussi parfois (un peu malheureusement) notée:

equation    (7.515)

ou le plus souvent:

equation   (7.516)

Cette variable D, somme des carrés des variables Ei, nous donne une mesure de ce que nous pourrions appeler une "distance" ou  "différence" ou "écart" entre distribution empirique et distribution théorique. Notons bien cependant qu'il ne s'agit pas d'une distance au sens mathématique habituel (topologique).

Rappelons que D peut donc aussi s'écrire:

equation   (7.517)

D est donc la somme des carrés de N variables aléatoires normales centrées réduites liées par la seule relation linéaire:

equation   (7.518)

n est la taille de l'échantillon. Donc D suit une loi Khi-deux mais à N-1 degrés de liberté, donc un degré de moins à cause de l'unique relation linéaire qui les lie! Effectivement, rappelons que le degré de liberté indique le nombre de variables indépendantes dans la somme et non pas juste le nombre de termes sommés.

Donc:

equation   (7.519)

Nous appelons ce test un "test non-paramétrique du Khi-deux" ou "test du Khi-deux de Pearson" ou encore "test d'ajustement du Khi-deux" ou encore "test de Karl Pearson" ou encore "test d'adéquation de l'ajustement du Khi-deux"...

Ensuite, l'habitude est de déterminer la valeur de la loi du Khi-deux à N-1 degrés de liberté ayant 5% de probabilité d'être dépassée. Ainsi, dans l'hypothèse où le phénomène étudié suit la loi théorique P, il y a donc 95% de probabilité cumulée que la variable D prenne une valeur inférieure à celle donnée par la loi du Khi-deux.

Si la valeur de la loi du Khi-deux obtenue à partir de l'échantillon prélevé est inférieure à celle correspondant aux 95% de probabilité cumulée, nous acceptons l'hypothèse selon laquelle le phénomène suit la loi P.

Remarques:

R1.  Le fait que l'hypothèse de la loi P soit acceptée ne signifie pas pour autant que cette hypothèse soit vraie, mais simplement que les informations données par l'échantillon ne permettent pas de la rejeter. De même, le fait que l'hypothèse de la loi P soit rejetée ne signifie pas nécessairement que cette hypothèse soit fausse mais que les informations données par l'échantillon conduisent plutôt à conclure à l'inadéquation d'une telle loi.

R2. Pour que la variable D suive une loi du Khi-deux, il est nécessaire que les effectifs théoriques npi des différentes modalités Ci soient au moins égaux à 5, que l'échantillon soit tiré au hasard (pas d'autocorrélation) et qu'aucune des probabilités pi ne soit trop proche de zéro.

Ce test d'ajustement souffre cependant d'un gros défaut: il nécessite de regrouper les mesures dans des classes Ci et dans la pratique il n'existe pas de théorème absolu (du moins à ma connaissance) pour choisir le nombre de classes (et in extenso leur largeur). C'est cette raison qui fait que le test d'ajustement (conformité) du Khi-deux est resérvé pour des distributions discrètes où le problème du choix des classes en se pose pas.

Il nous faudra cependant créer des tests d'ajustement qui ne nécessitent pas l'utilisation de classes et nous allons voir de suite les outils ad hoc pour cela (test de Kolmogorov-Smirnov ou Anderson-Darling pour ne citer qu'eux).

exempleExemple:

Supposons que les naissances à un hôpital, pour une certaine période de temps,  se répartissent comme suit:

Jour

L

M

M

J

V

S

D

Total

Observations

120

130

125

128

80

70

75

728

Tableau: 7.13 - Mesures pour l'exemple du test du Khi-deux

Nous remarquons qu'il y a eu au total 728 naissances. Nous nous posons alors la question suivant: Combien devrait il y avoir de naissances, en théorie, à chaque jour s'il n'y a pas de différence entre les jours? Ceci représente l'hypothèse nulle. En fait l'hypothèse nulle indique que les différences entre les fréquences observées et les fréquences théoriques sont relativement petites. Nous prenons donc pour acquis que si aucune différence n'existe il devrait y avoir le même nombre de naissances à chaque jour. Puisqu'il y a au total 728 naissances pour les 7 jours en théorie il devrait y avoir 728/7=104 naissances à chaque jour. Nous avons donc maintenant le tableau suivant:

Jour

L

M

M

J

V

S

D

Total

Observations

120

130

125

128

80

70

75

728

Théorique

104

104

104

104

104

104

104

728

Tableau: 7.14 - Comparaison par rapport à l'attendu

Le total des fréquences observées est égal au total des fréquences théoriques. Il s'agit donc d'examiner la différence entre les fréquences observées et les fréquences théoriques (supposées suivre une loi uniforme) en suivant la relation du Khi-deux. En d'autres termes, nous allons faire un test d'ajustement entre une fonction de distribution empirique (observée) et la fonction de distribution uniforme. Nous avons alors:

equation

Le equation est donc de 43.49. Comme tel ce chiffre signifie peu de chose. Il faut interpréter ce résultat grâce à l'aide de la table des valeurs critiques du equation. On comprend qu'il est très peu probable que la fréquence observée et la fréquence théorique soit identique. Nous acceptons qu'il puisse y avoir une certaine différence (nous rejetons donc l'hypothèse).

Il ne faut donc pas oublier que ce test s'applique uniquement à des données non censurées, c'est-à-dire pour lequel les intervalles sont tous bornés et fermés.

TEST D'AJUSTEMENT DE KOLMOGOROV-SMIRNOV

En statistiques, le test de Kolmogorov-Smirnov est un test d'hypothèse d'ajusteent basé sur une distance empirique utilisé pour déterminer si une distribution d'échantillonnage suit bien une loi donnée connue par sa fonction de répartition continue (ou pour comparer deux échantillons et vérifier s'ils sont dépendants ou non car semblables ou dissemblables). Ce test, au même titre que celui d'ajustement du khi-2, n'est valable que pour des données non censurées (du moins pas sans correction obtenue par simulations numériques).

Pour introduire ce test, nous avons choisi l'approche de Lilliefors qui permet d'éviter des calculs complexes. Par ailleurs, les logiciels qui proposent le "test de Lilliefors" ne proposent pas le test Kolmogorov-Smirnov puisque ce dernier n'est correct qu'asymtotiquement (ce qui est le cas de Tangra 4.14).

Imaginez donc que nous souhaiterions construire un test non paramétrique d'ajustement qui marche aussi bien pour les lois discrètes que continues et sans souffrir du même problème que le test d'ajustement du Khi-deux (regroupement en classes).

Pour construire ce test, nous allons partir de la fonction de répartition empirique déjà définie au début de ce chapitre et donnée pour rappel par

equation   (7.520)

Notons maintenant equation, la loi vraie supposée dont l'expression analytique est connue avec laquelle nous souhaiterions comparer equation et construisons la distance:

equation   (7.521)

Remarque: La loi de référence peut provenir cependant aussi d'un autre échantillon de mesures. L'idée est alors simplement de compararer deux distributions empiriques. Nous parlons alors de "test pour 2 échantillons indépendants de Kolmogorov-Smirnov". Certains logiciels gèrent aussi de façon empirique le cas où les 2 échantillons n'ont pas la même taille.

Le problème avec ce choix de distance c'est... quel x faut-il alors choisir pour faire un test? Eh bien pour répondre il est simple de constater qu'il serait stupide de prendre le x pour lequel cette distance est minimale, car avoir un equation qui peut valoir-zéro n'apporte pas grand chose... Dès lors, on se reporte plutôt vers le plus grand écart en valeur absolue. Ce qui nous amène à redéfinir la distance equation ainsi:

equation   (7.522)

equation est appelée "distribution empirique de Kolmogorov-Smirnov" (bon évidemment il faudrait prouver rigoureusement qu'il s'agit bien d'une distribution... mais pour l'instant c'est trop complexe au niveau du contenu du présent site, cependant cela peut se vérifier en faisant des simulations numériques). Avant d'aller plus loin relativement à la théorie, regardons un exemple pratique.

Supposons que nous ayons mesuré les cinq valeurs suivantes:

-1.2, 0.2, -0.6, 0.8, -1.0   (7.523)

soient ordonnées:

equation   (7.524)

Nous voulons tester l'hypothèse nulle suivante:

equation   (7.525)

equation représente la fonction de répartition de la loi Normale centrée réduite.

La fonction de distribution empirique sera donnée par:

equation   (7.526)

Ensuite, nous construisons traditionnellement le tableau suivant:

x

equation

equation

equation

equation

0

0.115

0.115

equation

0.2

0.115

0.085

equation

0.2

0.159

0.041

equation

0.4

0.159

0.241

equation

0.4

0.274

0.126

equation

0.6

0.274

0.326

equation

0.6

0.580

0.020

equation

0.8

0.580

0.220

equation

0.8

0.788

0.012

equation

1

0.788

0.212

Souvent associé au graphique comparant les fonctions de répartition empirique et théorique:

equation
Figure: 7.28 - Représentation de l'approche du test d'ajustement de Kolmogorov-Smirnov

Nous voyons alors que l'écart maximal observé est 0 326. Nous la noterons pour la suite:

equation   (7.527)

que certains logiciels comme Minitab notent par l'abréviation KS.

Le lecteur aura remarqué que le plus grand écart au-dessus de la courbe est mesuré par:

equation   (7.528)

Le plus grand écart au-dessous de la courbe est mesuré par:

equation   (7.529)

Le plus grand écart est alors:

equation   (7.530)

Mais que faire de cette valeur? À quoi la comparer? Eh bien l'idée est relativement simple et consiste à générer n valeurs (donc cinq dans le cas présent) issues de la loi de distribution F(x) de l'hypothèse nulle et de les comparer à elles-mêmes. Autrement dit, il s'agit de faire une simulation de Monte-Carlo (cf. chapitre de Méthodes Numériques)

Ainsi, dans le cas présent, nous générons 5 valeurs de N(0,1), ce qui nous donne par exemple avec la version anglaise de Microsoft Excel 11.8346 (je préfère parfois donner en anglais sinon le nom des fonctions est trop long):

=NORM.S.INV(RANDBETWEEN(0;1000000)/1000000)

Nous obtenons ainsi 5 valeurs  de Z (notation habituelle de la variable aléatoire d'une loi Normale centrée réduite) qui ordonnées seront par exemple:

-1.427, 0.082, 0.162, 0.294, 1.292

et nous refaisons le même tableau qu'avant:

equation

equation

equation

equation

equation

0

0.077

0.077

equation

0.2

0.077

0.123

equation

0.2

0.533

0.333

equation

0.4

0.533

0.133

equation

0.4

0.564

0.164

equation

0.6

0.564

0.036

equation

0.6

0.616

0.016

equation

0.8

0.616

0.184

equation

0.8

0.902

0.102

equation

1

0.902

0.098

Tableau: 7.15 - Tableau du test de Kolmogorov-Smirnov

Et nous avons donc l'écart maximal observé qui est de 0.333. Soit avec la version française de Microsoft Excel 14.0.6123:

equation
Figure: 7.29 - Calcul dans Microsoft Excel 14.0.6123

avec les formules explicites (malheureusement trop longues dans la version française du logiciel):

equation
Figure: 7.30 - Fonctions explicites dans Microsoft Excel 14.0.6123

avec la petite routine VBA correspondante vite fait mal faite qui va prendre le nombre d'itérations voulues dans la cellule K1 et va mettre la distribution empirique de Kolmogorov-Smirnov dans la colonne G de la feuille active:

equation
Figure: 7.31 - Code VBA Microsoft Excel 14.0.6123 pour la simulation de Monte-Carlo

Nous réitérons donc la procédure un bon millier de fois et nous obtenons la fonction de répartition (obtenue simplement en faisant un graphique de type nuage de points dans Microsoft Excel 14.0.6123 de 2'000 simulations):

equation
Figure: 7.32 - Fonction de réparition de Kolmogorov-Smirnov

et en appliquant un test unilatéral avec un risque equation nous obtenons pour le 95ème centile:

equation   (7.531)

Le lecteur retrouvera la même valeur dans les tables de Kolmogorov-Smirnov disponibles dans de nombreux ouvrages. Quelques milliers de simulations suffisent donc pour retrouver les valeurs des tables!

Et maintenant, nous comparons:

equation   (7.532)

et donc nous ne rejetons pas l'hypothèse nulle.

Cependant, ... il faut tout de même se méfier avec seulement cinq valeurs, il est tout à fait probable que l'hypothèse nulle ne soit pas rejetée pour d'autres lois de répartition que la loi Normale.

Ainsi, comme le lecteur l'aura remarqué, pour chaque hypothèse nulle associée à une loi donnée, il faut tabuler la distribution empirique de Kolmogorov-Smirnov pour différentes valeurs de n et de equation en utilisant des méthodes numériques. Dans la majorité des ouvrages on ne trouve qu'une seule table à l'aide d'un théorème puissant qui montre qu'en réalité, les valeurs critiques seront les mêmes.

Remarque: Kolmogorov et Smirnov ont démontré que lorsque n tend est très grand et que la loi de l'hypothèse nulle est continue, il n'est plus nécessaire de tabuler une table de Kolmogorov-Smirnov pour chaque loi, car nous avons alors:

equation   (7.533)

donc la distribution equation est indépendante de la loi de l'hypothèse nulle. En simulant avec la méthode de Monte-Carlo, nous observons effective une convergence lorsque n dépasse la centaine. Mais dans la pratique, la grande majorité du temps, il est impensable d'avoir un tel nombre de mesures. D'où le fait que ce résultat théorique soit peu utilisé dans la pratique et justifie l'absence de démonstration.

Pour clore, signalons au lecteur qu'il trouvera la démonstration mathématique du test d'ajustement d'Anderson-Darling un peu plus bas.

TEST DE NORMALITÉ DE RYAN-JOINER

Considérons une variable aléatoire X dont nous connaissons la distribution d'échantillonnag et pour laquellenous souhaiterions vérifier la normalité ou pas. Et considérons une variable aléatoire ordonnée Y générée par une loi Normale centrée réduite. Pour comparer X  et Y, nous allons centrer X  et ordonner ses valeurs dans l'ordre croissant.

Pour une même taille d'échantillon, si les valeurs ordonnées de X et Y pris deux à deux suivent une même loi, la régression linéaire de l'un en fonction de l'autre doit donner un coefficient assez proche de 1. En prenant la définition du coefficient de corrélation au carré, il vient alors:

equation   (7.534)

Y est imposé comme suivant une loi normale centrée réduite. Il vient alors:

equation   (7.535)

et si nous prenons l'estimateur du coefficient de corrélation:

equation   (7.536)

Mais comme nous avons centré X, il vient:

equation   (7.537)

Soit après simplification:

equation   (7.538)

Il s'agit de l'approche de Ryan-Joiner (implémentée dans Minitab) du test de Shapiro-Wilk. Les résultats des deux tests sont très similaires. Les coefficients equation peuvent être facilement obtenus à l'aide de n'importe quel tableur à notre époque en utilisant une simulation de Monte-Carlo (cf. chapitre de Méthodes Numériques). Si un lecteur le souhaite nous détaillerons comment obtenir les equation avec Microsoft Excel pour un n donné.

Il convient de signaler que les logiciels de statistique donne la racine carrée de la dernière égalité ci-dessous comme étant le coefficient RJ de Ryan-Joiner.

exempleExemple:

Considérons les 10 mesures de la colonne A déjà triées dans l'ordre croissant:

equation
Figure: 7.33 - Mesures ordonnées, rangs, coefficient de RJ et Z-score d'exemple

Les formules sont les suivantes (données en anglais car plus petites pour la capture d'écran):

equation
Figure: 7.34 - Détails de la capture d'écran précédent avec la version anglophone de Microsoft Excel 14.0.6123

Et donc nous avons dans une feuille nommée Coeff_MonteCarlo des simulations de Monte-Carlo pour déterminer les 10 coefficients equation notés traditionnellement dans le cas de 10 mesures dans les tables sous la forme suivante: equation.

D'abord il faut créer 10 colonnes avec des générations de variables aléatoires normales centrées réduites sur à peu près 10'000 lignes avec la formule suivante (donnée en anglais):

=NORM.S.INV(RANDBETWEEN(1;99999999)/100000000)

equation
Figure: 7.35 - Génération des variables aléatoires normales centrées réduites pour les coefficient de RJ

et ensuite il faut construire les ranges de toutes ces valeurs ligne par ligne tel que:

equation
Figure: 7.36 - Tri des simulations pour déterminer les coefficients de RJ

avec les formules suivantes (données seulement pour les 4 premiers i faute de place dans la capture d'écran):

equation
Figure: 7.37 - Détails du tri pour la détermination des coefficients de RJ
avec la version anglophone de Microsoft Excel 14.0.6123

Pour finir, il n'y a plus qu'à calculer le coefficient de corrélation entre les colonnes C et D de la première capture d'écran:

equation
Figure: 7.38 - Calcul final du coefficient de corrélation de RJ

Ce qui donne environ 0.963 (le carré de cette valeur étant très très proche du test de Shapiro-Wilk). Ensuite, pour savoir si on peut accepter ou rejeter l'hypothèse de normalité, il faudrait refaire la procédure avec en lieu et place mesures, des valeurs générées aussi aléatoires à partir d'une loi Normale et déterminer la valeur critique d'acceptation/rejet (normalement c'est très simple à faire mais on peut détailler sur demande).

TEST D'AJUSTEMENT d'anderson-darling

Il est surprenant qu'un test raisonnablement puissant (robuste) comme l'est le test de Kolmogorov-Smirnov puisse être conçu en ne s'appuyant que sur une unique observation et ce un seul point de la fonction de répartition candidate. Il semblerait, avec du recul, plus efficient de mesurer la différence entre les deux fonctions de répartition en comparant ces fonctions sur l'intégralité de leur domaine, c'est-à-dire de equation à equation.

Il existe une famille de tests dont les statistiques sont basées sur l'intégrale du carré de la différence (ces tests sont souvent considérés comme non paramétriques mais selon moi à tort et ce au même titre que le test de Kolmogorov-Smirnov est lui aussi considéré comme non paramétrique):

equation   (7.539)

entre la fonction de répartition empirique et la fonction de répartition de référence. La plus simple de ces statistiques est:

equation   (7.540)

qui est simplement la surface comprise entre la fonction de répartition empirique et la fonction de répartition de référence. Soit, en reprenant le graphique utilisé plus haut lors de notre étude du test d'ajustement de Kolmogorov-Smirnov:

equation
Figure: 7.39 - Représentation de l'approche du test d'ajustement d'Anderson-Darling

Cependant, arbitrairement, nous pouvons choisir autre chose que la mesure x pour l'intégrale. Ainsi, un choix classique est de prendre la fonction de répartition théorique elle-même comme mesure de base de l'intégrale. Il vient ainsi:

equation   (7.541)

La statistique résultant de cet ajout s'appelle la "statistique de Cramér-von Mises". Cependant elle souffre d'un gros défaut de robustesse lorsque des points de mesures se trouvent sur les queues de la distribution.

Il a alors été proposé la mesure suivante qui est un peu moins sensible aux points de mesures se trouvant sur les queues:

equation   (7.542)

appelée "statistique d'Anderson-Darling" qui a été la plus utilisée dans la fin du 20ème siècle et reste dominante au début du 21ème aussi (du moins tant que l'échantillon est d'une taille acceptable!). Elle est par construction plus robuste que les statistiques de Cramér-von Mises et de Kolmogorov-Smirnov mais des études par simulations ont montré qu'elle était moins robuste que le test de Shapiro-Wilk ou Ryan-Joiner.

En se rappelant que la définition de la distribution empirique equation lors de notre étude du test d'ajustement (adéquation) de Kolmogorov-Smirnov implique que:

equation   (7.543)

si equation et:

equation   (7.544)

si equation et:

equation   (7.545)

si equation. Nous avons alors en supposant en plus que F est continue:

equation   (7.546)

Ensuite, nous faisons le changement de variable:

equation   (7.547)

et donc:

equation   (7.548)

et sans oublier les changement de bornes des intégrales puisque:

equation et equation   (7.549)

Il vient alors:

equation   (7.550)

où nous avons bien évidemment posé:

equation   (7.551)

Il faut à présent calculer ces intégrales. Nous cherchons donc la primitive d'une fonction du type:

equation   (7.552)

Les primitives des deux expressions suivantes:

equation   (7.553)

ont été démontrées sous leur forme générale dans le chapitre de Calcul Différentiel Et Intégral et valent respectivement:

equation   (7.554)

car au vu des valeurs que peut prendre u, il est alors inutile d'indiquer les valeurs absolues.

Il nous reste donc qu'à calculer la primitive de:

equation   (7.555)

où un changement de variable évident (si jamais vous souhaitez les détails n'hésitez pas à demander) nous donne la primitive sans la constante:

equation   (7.556)

Nous avons alors au final:

equation   (7.557)

Nous avons donc:

equation   (7.558)

Nous pouvons déjà remarquer que dans la dernière égalité:

equation   (7.559)

Il reste alors:

equation   (7.560)

Nous allons procéder maintenant à quelques manipulations algébrique astucieuses (mais simples) pour condenser l'écriture de cette dernière égalité.

D'abord, remarquons que nous pouvons récrire la première somme ainsi (le lecteur pourra vérifier en développement les deux sommes pour une petite valeur de n):

equation   (7.561)

ce qui équivaut donc à poser equation.

Nous transformons aussi la deuxième somme:

equation   (7.562)

et le lecteur pourra vérifier que l'égalité ci-dessous pour la troisième somme est vérifiée:

equation   (7.563)

qui équivaut aussi à poser equation.

Enfin, nous transformons la quatrième somme (puisque de toute façon lorsque j vaut n le terme de la somme est nul...):

equation   (7.564)

Alors, nous avons:

equation   (7.565)

Soit en éliminant les termes qui s'annulent:

equation   (7.566)

Et en regroupant les termes ayant la même forme de logarithme:

equation   (7.567)

Soit:

equation   (7.568)

Il s'agit d'un des formes du test d'Anderson-Darling et qui dans le cadre d'une loi Normale s'écrit par tradition sous la forme suivante:

equation   (7.569)

Mais il existe une autre expression simplifiée très courante. Pour l'établir, nous repartons de l'expression:

equation   (7.570)

En faisant le changement de variable equation dans la dernière somme l'expression:

equation   (7.571)

devient:

equation   (7.572)

et les bornes de la somme deviennent:

equation   (7.573)

et dès lors:

equation   (7.574)

Donc:

equation   (7.575)

Enfin:

equation   (7.576)

exempleExemple:

Supposons que nous ayons mesuré les cinq valeurs suivantes:

equation   (7.577)

soient ordonnées:

equation   (7.578)

Nous voulons tester l'hypothèse nulle suivante:

equation représente la fonction de répartition de la loi Normale centrée réduite. Mettre en place le calcul de l'indice AD dans un logiciel comme la version française de Microsoft Excel 14.0.6123:

equation
Figure: 7.40 - Valeurs à tester avec colonnes habituelles dans le tableur

Soit explicitement:

equation
Figure: 7.41 - Formules Excel explicites du tableau principal de la figure précédente

et:

equation
Figure: 7.42 - Formules Excel explicites des deux dernières cellules

Nous obtenons donc la même valeur de l'indicateur AD que les logiciels de statistiques qui permettent de choisir la loi à comparer (et donc les paramètres y relatifs). Cependant pour de très petits échantillons les logiciels de statistiques utilisent la correction suivante (qui nous été impossible de réobtenir par simulation...):

equation   (7.579)

soit dans notre cas AD* vaut environ 0.789.

Ensuite pour calculer la p-value nous devons investiguer une curiosité... Effectivement si nous la déterminons en faisant une simulation de Monte-Carlo comme nous l'avons fait lors de notre démonstration du test de Kolmogorov-Smirnov en changeant d'abord le contenu de la colonne A en y mettant des valeurs dynamiques triées:

equation
Figure: 7.43 - Formules Excel explicites des deux dernières cellules

Valeurs provenant donc de la colonne O où nous avons mis:

equation
Figure: 7.44 - Formules génératrices d'une loi Normale pour l'application de Monte-Carlo

Le lecteur remarquera donc que cela revient finalement à comparer l'échantillon avec une distribution uniforme!!!

En ayant ensuite préparé les colonnes suivantes H, I qui contiendront les valeurs simulées reportées par le code VBA donné un peu plus loin et les colonnes L, M qui nous permettent d'avoir la répartition des valeurs de AD et AD* pour en calculer le centile:

equation
Figure: 7.45 - Colonnes pour le reports du VBA et pour les différents centiles de AD/AD*

avec le petite code VBA ci-dessous vite fait mal fait:

equation

nous avons alors avec 10'000 simulations la répartition suivante des valeurs de AD et AD*:

equation
Figure: 7.46 - Centiles des 10'000 simulations

Donc que ce soit pour AD ou AD* la p-value se situe dans notre cas particulier entre 60% et 75% ce qui correspond aux valeurs tabulées par Peter A. W. Lewis chez IBM (1961).

Ce qui est curieux et qu'il nous faut justement investiguer c'est que la grande majorité des logiciels utilisent les formules suivantes (R.B. D'Augostino et M.A. Stephens, Eds., 1986, Goodness-of-Fit Techniques, Marcel Dekker) permettant d'éviter les simulations de Monte-Carlo:

equation   (7.580)


et dans notre cas, l'application de ces formules donnent une p-value d'environ 4%!!! Valeur que donnent effectivement les logiciels statistiques! Affaire à suivre pour trouver d'où vient cette énorme différence... Nous avons demandé au support technique d'un éditeur de progiciel statistique américain de nous expliquer la raison de la différence entre les valeurs tabulées Peter A.W. Lewis et celles R.B. D'Augostino et M.A. Stephens mais ils n'ont pas été capables de répondre. Nous avons également contacté M.A. Stephens lui-même pour qu'il nous communique comment il avait obtenu ces formules mais nous n'avons jamais eu de réponses...

Donc si quelqu'un trouve un jour la méthode et qu'il souhaite nous le communiquer...

Robustesse

Dans le domaine des statistiques inférentielles et tests d'hypothèses, la robustesse est un concept récurrent (les banques sont astreintes au stress testing/crash-test de leurs modèles de risque). Nous en avons par ailleurs déjà fait mention plus haut...

Définitions:

D1. Un test est dit "test robuste" s'il reste valable alors que les hypothèses d'application ne sont pas toutes réunies. Ce peut être une taille d'échantillon un peu faible ou une loi de probabilité (loi normale pour les tests paramétriques) qui n'est pas très bien vérifiée. Par exemple, l'ANOVA est robuste par rapport à l'hypothèse de normalité mais pas par rapport à celle de l'homoscédasticité

D2. Un indicateur est dit "indicateur robuste" s'il est peu sensible à la présence d'outliers (le coefficient de corrélation, par exemple, n'est pas très robuste).

D3. Plus généralement, un modèle est dit "modèle robuste" lorsqu'il permet un prolongement des résultats (dans le temps ou pour une population). La robustesse s'applique aussi bien à une régression multiple qu'à une grille de score.

Par conséquent, à moins d'être uniquement descriptives, vos études devront respecter quelques règles pour que leurs conclusions soient généralisables.

Première condition d'une bonne robustesse: les données. Intuitivement, chacun sait qu'on ne transforme pas un cas en généralité (ce qui ne relèverait pas des statistiques mais des discussions de comptoir). Une quantité suffisante de données permet de bâtir des modèles fiables et solides. À titre d'exemple, des prévisions établies à partir d'une série chronologique montrant une saisonnalité nécessitent au moins trois ou quatre ans d'historique.

La quantité ne suffit pas, il faut la qualité. Mieux vaut s'abstenir que réaliser une étude sur des informations non fiables qui peuvent conduire à des décisions coûteuses. Par ailleurs, il convient d'éliminer ou d'imputer certaines observations (voir outliers). Si ce n'est pas possible, on se tourne vers des méthodes adaptées, par exemple celles qui utilisent la médiane plutôt que la moyenne.


Haut de page
STATISTIQUES (1/3) STATISTIQUES (3/3)

Like8   Dislike0
66.67% sur 100%
Notée par 36 visiteur(s)
12345
Commentaires: [0] 
 
   


W3C - HTMLW3C - CSS Firefox
Ce travail est dans le domaine public
2002-2017 Sciences.ch

Haut de page