Sciences.ch (statistiques)

Ce qui va suivre est d'une extrême importance en statistiques et est utilisé énormément en pratique. Il convient donc d'y accorder une attention toute particulière! Outre le fait que nous utiliserons cette technique dans la présent chapitre, nous la retrouverons dans le chapitre de Méthodes Numériques pour les techniques avancées de régressions linéaires généralisées ainsi que dans le chapitre de Génie Industriel dans le cadre de l'estimation des paramètres de fiabilité.

Nous supposons que nous disposons d'observations

qui sont des réalisations de variables aléatoires non biaisées (dans le sens qu'elles sont choisies aléatoirement parmi un lot) indépendantes

de loi de probabilité inconnue mais identique.

Nous allons chercher à estimer cette loi de probabilité P inconnue à partir des observations

Supposons que nous procédons par tâtonnements pour estimer la loi de probabilité P inconnue. Une manière de procéder est de se demander si les observations

avaient une probabilité élevée ou non de sortir avec cette loi de probabilité arbitraire P.

Nous devons pour cela calculer la probabilité conjointe qu'avaient les observations

de sortir avec les probabilités

. Cette probabilité conjointe vaut (cf. chapitre de Probabilités):

en notant P la loi de probabilité supposée associée à

. Il faut avouer qu'il serait alors particulièrement maladroit, au niveau de la notion intuitive de risque, de choisir une loi de probabilité (avec ses paramètres!) qui minimise cette quantité...

Au contraire, nous allons chercher les probabilités

(ou les paramètres de la loi associée) qui maximisent

, c'est-à-dire qui rende les observations

le plus vraisemblable possible.

Nous sommes donc amenés à chercher le (ou les) paramètre(s)

qui maximise(nt) la quantité:

et où le paramètre

est souvent dans les cas scolaires un moment d'ordre un (espérance) ou d'ordre deux (variance).

Cette quantité L porte le nom de "vraisemblance". C'est une fonction du ou des paramètres

et des observations

La ou les valeurs du paramètre

qui maximisent la vraisemblance

sont appelées "estimateurs du maximum de vraisemblance" (estimateur MV/EMV).

Dans le cas très particulier mais formateur de la loi Normale, un des paramètres

sera donc la variance (voir un peu plus loin l'exemple concret) et il peut être considéré comme intuitif au physicien que pour maximiser la probabilité, l'écart-type doit être le plus petit possible (pour que le maximum d'évenements se trouve dans un même intervalle). Ainsi, lorsque nous calculons un EMV qui est le plus petit parmi plusieurs possibles, nous parlons alors d'estimateur UMV pour "Uniform Minimum Variance Unbiased" car leur propre variance doit être la plus petite possible. Cela se démontre (mais c'est peu élégant) en utilisant la définition de l'Information de Fisher et du théorème de Fréchet (ou de Rao-Cramer) qui fait usage de l'inégalité de Cauchy-Schwartz (cf. chapitre de Calcul Vectoriel) et de l'analogie entre espérance et produit scalaire... Cette démonstration ne sera pas présentée sur ce site Internet.

Faisons quand même cinq petits exemples (très classiques, utiles et importants dans l'industrie) avec dans l'ordre d'importance (donc pas forcément dans l'ordre de facilité...) la fonction de distribution de Gauss-Laplace (Normale), la fonction de distribution de Poisson, la distribution Binomiale (et in extenso Géométrique), la distribution de Weibull et finalement la distribution Gamma.

ESTIMATEURS DE LA DISTRIBUTION NORMALE

Soit

un n-échantillon de variables aléatoires identiquement distribuées supposées suivre une loi de Gauss-Laplace (loi Normale) de paramètres

Nous recherchons quelles sont les valeurs des estimateurs du maximum de vraisemblance

qui maximisent la vraisemblance

de la loi Normale?

Nous avons démontré plus haut que la densité d'une variable aléatoire gaussienne était donnée par:

Maximiser une fonction ou maximiser son logarithme est équivalent donc la "log-vraisemblance" sera:

Pour déterminer les deux estimateurs de la loi Normale, fixons d'abord l'écart-type. Pour cela, dérivons

par rapport à

et regardons pour quelle valeur de la moyenne la fonction s'annule.

Ainsi, l'estimateur du maximum de vraisemblance de la moyenne (espérance) de la loi Normale est donc après réarrangement:

et nous voyons qu'il s'agit simplement de la moyenne arithmétique (ou appelée aussi "moyenne empirique").

Ce qui nous permet d'écrire l'estimateur du maximum de vraisemblance pour l'écart-type (la variance lorsque la moyenne est connue selon la loi de distribution supposée elle aussi connue!):

Cependant, nous n'avons pas encore défini ce qu'était un bon estimateur ! Ce que nous entendons par là:

- Si l'espérance d'un estimateur est égale à elle-même, nous disons que cet estimateur est "sans biais" et c'est bien évidemment ce que nous cherchons!

- Si l'espérance d'un estimateur n'est pas égale à elle-même, nous disons alors que cet estimateur est "biaisé" et c'est forcément moins bien...

Dans l'exemple précédent, la moyenne est donc non biaisée (trivial car la moyenne de la moyenne arithmétique est égale à elle-même). Mais qu'en est-il de la variance (in extenso de l'écart-type) ?

Un petit calcul simple par linéarité de l'espérance (puisque les variables aléatoires sont identiquement distribuées) va nous donner la réponse dans le cas où la moyenne théorique est approchée comme dans la pratique (industrie) par l'estimateur de la moyenne (cas le plus fréquent).

où la deuxième relation ne peut s'écrire que parce que nous utilisons l'estimateur du maximum de vraisemblance de la moyenne (moyenne empirique). D'où:

nous disons alors que cet estimateur à un biais négatif (il sous-estime la vraie valeur!).

Nous noterons également que l'estimateur tend vers un estimateur sans biais (E.S.B.) lorsque le nombre d'individus tend vers l'infini

. Nous disons alors que nous avons un "estimateur asymptotiquement non biaisé" ou "estimateur asymptotiquement débiaisé".

Il est important de prendre note que nous avons démontré que la variance empirique tend vers la variance théorique quand n tend vers l'infini et ce... que les données suivent une loi Normale ou non!

que certains appellent aussi "écart-type standard"... (à ne pas confondre avec "l'erreur-standard" que nous verrons plus loin).

Nous avons donc finalement pour résumer les deux résultats importants suivants:

1. "L'estimateur du maximum de vraisemblance biaisé" ou appelé également "écart-type empirique" ou encore "écart-type échantillonnal" ou encore "écart-type de Pearson" ... et donc donné par:

lorsque

. Nous retrouvons cet écart-type suivant les contextes (par tradition) noté de cinq autres différentes façons qui sont:

et même parfois (mais c'est très malheureux car cela génère alors souvent de la confusion avec l'estimateur non biaisé)

ou S.

2. "L'estimateur du maximum de vraisemblance non biaisé" ou appelé également "écart-type standard" avec la "correction de Bessel" (le -1 au dénominateur est la correction en question...):

qui comme nous le voyons est un estimateur convergent (quand n tend vers l'infini celui-ci tend vers l'estimateur du maximum de vraisemblance biaisé).

Nous retrouvons cet écart-type suivant les contextes (par tradition) noté de trois autres différentes façons qui sont:

Nous retrouverons ces deux dernières notations souvent dans les tables et dans de nombreux logiciels et que nous utiliserons plus bas dans les développements des intervalles de confiance et des tests d'hypothèses!

Par exemple, dans la version française de de Microsoft Excel 11.8346 l'estimateur biaisé est donné par la fonction ECARTYPEP( ) et le non biaisé par ECARTTYPE( ).

Au total, cela nous fait donc trois estimateurs pour la même quantité!! Comme dans l'écrasante majorité des cas de l'industrie la moyenne théorique n'est pas connue, nous utilisons le plus souvent les deux dernières relations encadrées ci-dessus. Maintenant, c'est là que c'est le plus vicieux: lorsque nous calculons le biais des deux estimateurs, le premier est biaisé, le second ne l'est pas. Donc nous aurions tendance à n'utiliser que le second. Que nenni! Car nous pourrions aussi parler de la variance et de la précision d'un estimateur, qui sont aussi des critères importants pour juger de la qualité d'un estimateur par rapport à un autre. Si nous faisions le calcul de la variance des deux estimateurs, alors le premier, qui est biaisé, a une variance plus petite que le second qui est sans biais! Tout ça pour dire que le critère du biais n'est pas (et de loin) le seul à étudier pour juger de la qualité d'un estimateur.

Enfin, il est important de se rappeler que le facteur -1 du dénominateur de l'estimateur du maximum de vraisemblance non biaisé provient du fait qu'il fallait corriger l'espérance de l'estimateur biaisé à la base minoré de une fois l'erreur-standard!

ESTIMATEURS DE LA DISTRIBUTION DE POISSON

En utilisant la même méthode que pour la loi Normale (Gauss-Laplace), nous allons donc rechercher les estimateurs du maximum de vraisemblance de la loi de Poisson qui rappelons-le, est donnée par:

Il est tout à fait normal de retrouver dans cet exemple didactique la moyenne empirique, car c'est le meilleur estimateur possible pour le paramètre de la loi de Poisson (qui représente aussi l'espérance d'une loi de Poisson).

Sachant que l'écart-type de cette distribution particulière (voir plus haut lors de notre développement de la loi de Poisson) n'est que la racine carrée de la moyenne, nous avons alors pour l'écart-type du maximum de vraisemblance:

ESTIMATEUR DE LA DISTRIBUTION BINOMIALE (ET GÉOMÉTRIQUE)

En utilisant la même méthode que pour la loi Normale (Gauss-Laplace) et la loi de Poisson, nous allons donc rechercher l'estimateur du maximum de vraisemblance de la loi Binomiale qui rappelons-le, est donnée par:

Il convient de se rappeler que le facteur qui suit le terme combinatoire exprime déjà les variables successives selon ce que nous avons vu lors de notre étude de la fonction de distribution de Bernoulli et de la fonction binomiale. D'où la disparition du produit dans la dernière égalité précédente.

Le lecteur aura peut-être remarqué que le coefficient binomial a disparu. Dès lors, nous en déduisons immédiatement que l'estimateur de la loi binomiale sera le même que celui de la loi géométrique.

d'où nous tirons l'estimateur du maximum de vraisemblance qui sera donc la simple moyenne empirique:

Ce résultat est assez intuitif si l'on considère l'exemple classique d'une pièce de monnaie qui a une chance sur deux de tomber sur une de ces faces. La probabilité p étant le nombre de fois k où une face donnée a été observée sur le nombre d'essais total (toutes faces confondues).

ESTIMATEURS DE LA DISTRIBUTION DE WEIBULL

Nous avons vu dans le chapitre de Génie Industriel une étude très détaillée de la loi de Weibull à trois paramètres avec son écart-type et son espérance car nous avions précisé qu'elle était assez utilisée dans le domaine de l'ingénierie de la fiabilité.

Malheureusement les trois paramètres de cette loi nous sont en pratique inconnus. A l'aide des estimateurs nous pouvons cependant déterminer l'expression de deux des trois en supposant

comme étant nul. Cela nous donne donc la loi de Weibull dite "loi de Weibull à deux paramètres" suivante:

Cherchons maintenant à maximiser cela en se rappelant que (cf. chapitre de Calcul Différentiel et Intégral):

Finalement avec les écritures correctes (et dans l'ordre de résolution dans la pratique):

La résolution de ces équations implique de lourds calculs et nous ne pouvons a priori rien en tirer dans des tableurs classiques comme Microsoft Excel ou Calc de Open Office sans faire de la programmation.

On prend alors une approche différente en écrivant notre loi de Weibull à deux paramètres ainsi:

Cherchons maintenant à maximiser cela en se rappelant que (cf. chapitre de Calcul Différentiel et Intégral):

peut très facilement être calculée avec l'outil Valeur Cible de Microsoft Excel ou Calc de Open Office.

ESTIMATEURS DE LA DISTRIBUTION GAMMA

Nous allons utiliser ici une technique appelée "méthode des moments" pour déterminer les estimateurs des paramètres de la loi Gamma.

Supposons que X₁, ..., X_n sont des variables aléatoires indépendantes et identiquement distribuées selon la loi Gamma avec pour densité:

Nous cherchons à estimer

. Pour cela, nous déterminons d'abord quelques moments théoriques.

et le second moment, l'espérance du carré de la variable aléatoire, est comme nous l'avons démontré implicitement lors de la démonstration de la variance de la loi Gamma:

Nous exprimons ensuite la relation entre les paramètres et les moments théoriques:

Une fois ce système établi, la méthode des moments consiste à utiliser les moments empiriques, en l'occurrence pour notre exemple les deux premiers,

FACTEUR DE CORRECTION SUR POPULATION FINIE

Maintenant démontrons un autre résultat qui nous sera indispensables dans certains tests statistiques que nous verrons plus loin.

Supposons que nous avons une population de N individus que nous représentons par l'ensemble

et une variable aléatoire X qui est donc une application de

dans

. Nous posons

. La moyenne de X est alors donnée par:

Considérons à présent l'ensemble E des échantillons

de taille n pris dans

avec

. Chaque individu a une probabilité d'être tiré égale à:

Nous nous intéressons à la variable aléatoire

définie sur E et étant égale à la moyenne de l'échantillon. Plus précisément:

Afin de calculer la variance

, nous allons exprimer

comme somme de variables aléatoires. En effet si nous définissons les variables

avec

par:

Les variables aléatoires

ne sont pas indépendantes deux à deux, en effet comme nous allons le voir, leurs covariances ne sont pas nulles si N est fini. Dans le cas contraire (covariance nulle), nous retrouvons un résultat déjà démontré plus haut:

Pour ce faire nous allons utiliser la relation de Huyghens et nous allons commencer par calculer l'espérance

est la probabilité qu'un échantillon contienne k. Cette probabilité vaut bien évidemment

et par suite:

Pour calculer les covariances avons à présent besoin de calculer les espérances

est la probabilité qu'un échantillon contienne i et j. Cette probabilité vaut bien évidemment:

que nous avons déjà rencontré lors de notre étude la loi hypergéométrique est appelé "facteur de correction sur population finie" et il a pour effet de réduire l'erreur-standard d'autant plus que n est grand.

INTERVALLES DE CONFIANCE

Jusqu'à maintenant nous avons toujours déterminé les différents estimateurs de vraisemblance ou estimateurs simples (variance, écart-type) à partir de lois (fonctions) statistiques théoriques ou mesurées sur toute une population de données.

Définition: Un "intervalle de confiance" est un couple de nombres qui définit (a posteriori) une plage de valeurs possibles avec une certaine probabilité cumulée pour un estimateur (ponctuel) d'un indicateur statistique donné par un échantillon d'une expérience (plage calculée le plus souvent à l'aide de paramètres vrais mesurés). Il s'agit du cas le plus fréquent en statistiques.

Nous allons maintenant aborder qui consiste à se demander assez naturellement quelles doivent être les tailles des échantillons de nos données mesureés pour avoir une certaine validité (intervalle de confiance I.C.) de nos estimateurs ou encore quel écart-type ou fractile dans une loi Normale centrée réduite (grand nombre d'individus), du Khi-deux, de Student ou de Fisher correspond un certain intervalle de confiance (nous verrons ces deux derniers cas de faibles échantillons dans la partie traitant de l'analyse de la variance ou ANOVA) lorsque la variance ou la moyenne est connue ou respectivement inconnue sur l'ensemble ou une partie de la population donnée.

Indiquons que ces intervalles de confiance utilisent souvent le théorème central limite démontré plus loin (afin d'éviter toute frustration) et que les développements que nous allons faire maintenant nous seront également utiles dans le domaine des Tests d'Hypothèses qui ont une place majeure en statistique!

Enfin, indiquons que de très nombreuses organisations (privées ou étatiques) font des statistiques fausses car les hypothèses et conditions d'utilisation de ces intervalles de confiance (et in extenso les tests d'hypothèses qui en découlent) ne sont pas rigoureusement vérifiées ou simplement omises ou pire encore, toute la base (les mesures) n'est pas collectée dans les règles de l'art (fiabilisation de la collecte de données par des protocoles scientifiques reproductibles et validés par les pairs).

Enfin, indiquons que de très nombreuses organisations (privées ou étatiques) font des statistiques fausses car les hypothèses et conditions d'utilisation ne sont pas rigoureusement vérifiées ou simplement omises ou pire encore, toute la base (les mesures) ne sont pas collectées dans les règles de l'art (fiabilisation de la collecte de données).

Remarque: Le praticien doit être très prudent quant à au calcul des intervalles de confiance et à l'utilisation des tests d'hypothèses dans la pratique. Raison pour laquelle, afin d'éviter toute erreur triviale d'utilisation ou d'interprétation, il est important de se référer aux normes suivantes par exemple: ISO 2602:1980 (Interprétation statistique de résultats d'essais - Estimation de la moyenne - Intervalle de confiance), ISO 2854:1976 (Interprétation statistique des données - Techniques d'estimation et tests portant sur des moyennes et des variances), ISO 3301:1975 (Interprétation statistique des données - Comparaison de deux moyennes dans le cas d'observations appariées), ISO 3494:1976 (Interprétation statistique des données -- Efficacité des tests portant sur des moyennes et des variances), ISO 5479:1997 (Interprétation statistique des données - Tests pour les écarts à la distribution normale), ISO 10725:2000 + ISO 11648-1:2003 + ISO 11648-2:2001 (Plans et procédures d'échantillonnage pour acceptation pour le contrôle de matériaux en vrac), ISO 11453:1996 (Interprétation statistique des données - Tests et intervalles de confiance portant sur les proportions), ISO 16269-4:2010 (Interprétation statistique des données - Détection et traitement des valeurs aberrantes), ISO 16269-6:2005 (Interprétation statistique des données - Détermination des intervalles statistiques de tolérance), ISO 16269-8:2004 (Interprétation statistique des données - Détermination des intervalles de prédiction), ISO/TR 18532:2009 (Lignes directrices pour l'application des méthodes statistiques à la qualité et à la normalisation industrielle).

I.C. SUR LA MOYENNE AVEC VARIANCE THÉORIQUE CONNUE

Commençons par le cas le plus simple et le plus courant qui est la détermination du nombre d'individus pour avoir une certaine confiance dans la moyenne des mesures effectuées d'une variable aléatoire supposée suivre une loi Normale.

D'abord rappelons que nous avons démontré au début de ce chapitre que l'erreur-type (écart-type à la moyenne) était sous l'hypothèses de variables indépendantes et identiquement distribuées (i.i.d.):

Maintenant, avant d'aller plus loin, considérons X comme une variable aléatoire suivant une loi Normale de moyenne

et d'écart-type

. Nous souhaiterions que la variable aléatoire ait par exemple 95% de probabilité cumulée de se trouver dans un intervalle symétrique borné donné. Ce qui s'exprime donc sous la forme suivante:

A partir de là en lisant dans les tables numériques de la loi Normale centrée réduite (ou en utilisant un simple tableur), nous avons pour satisfaire cette égalité que:

Ce qui s'obtient facilement avec la version anglaise de Microsoft Excel 11.8346 en utilisant la fonction: -NORMSINV((1-0.95)/2).

Ce qui est noté de façon traditionnelle dans le cas général autre que 95% par (Z étant la variable aléatoire correspondant donc à la moitié du quantile du seuil fixé de la loi Normale centrée réduite):

Or, considérons que la variable X sur laquelle nous souhaitons faire de l'inférence statistique est justement la moyenne (et nous démontrerons plus loin que celle-ci suit une loi Normale centrée réduite). Dès lors:

dont nous prenons évidemment (normalement...) la valeur entière supérieure…

Cette dernière notation est plus souvent écrite sous la forme suivante mettant mieux en évidence la largeur de l'intervalle de confiance à un niveau

sous-jacent:

Ainsi, nous pouvons maintenant savoir le nombre d'individus à avoir pour s'assurer un intervalle de précision

(marge d'erreur) autour de la moyenne et pour qu'un pourcentage donné des mesures se trouvent dans cet intervalle et en supposant l'écart-type théorique

connu (ou imposé) d'avance (typiquement utilisé dans l'ingénierie de la qualité ou les instituts de sondages/enquêtes).

Dans le cas des sondages/enequêtes où la population n'est pass assez grande pour considéréer que nous avons un échantillonnage avec remise, nous parlons devons alors introduire la facteur fpc que nous avons démontré plus haut (nous parlons alors dans PSSR pour "plan de sondage sans remise"). Il vient alors:

Autrement dit, nous pouvons calculer le nombre n d'individus à mesurer pour s'assurer un intervalle de confiance donné (associé à Z) de la moyenne mesurée en supposant l'écart-type théorique connu (ou imposé) et en souhaitant un précision de

en valeur absolue sur la moyenne.

Cependant... en réalité, la variable Z provient du théorème central limite (voir plus bas) qui donne pour un échantillon de grande taille (approximativement):

et comme Z peut être négatif ou positif alors il est plus censé d'écrire cela sous la forme:

avec LCL étant la lower confidence limit et UCL la upper confidence limit. C'est de la terminologie Six Sigma (cf. chapitre de Génie Industriel).

Et nous venons de voir plus avant que pour avoir un intervalle de confiance à 95% nous devrions avoir Z=1.96. Et puisque la loi Normale est symétrique:

Comme nous l'avons déjà mentionné, et nous le démontrerons un peu plus loin, la moyenne arithmétique centrée réduite d'une séries de variables aléatoires indépendantes et identiquement distribuées de variance fini suit asymptotiquement une loi Normale centrée réduite, alors l'intervalle de confiance ci-dessus a une portée très générale! Raison pour laquelle nous parlons parfois de "d'intervalle de confiance asymptotique de la moyenne".

Ces intervalles ont évidemment pour origine que nous travaillons très souvent en statistiques sur des échantillons et non sur toute la population disponible. L'échantillonage choisi influe donc sur l'estimateur ponctuel. Nous parlons alors de "fluctuation d'échantillonage".

Dans le cas particulier d'un I.C. (intervalle de confiance) à 95%, la dernière relation s'écrit:

Parfois nous retrouvons l'inégalité antéprécédente sous la forme équivalente suivante:

ou encore plus rarement sous la forme générale suivante (que l'on retrouve pour toutes les intervalles):

Nous sommes ainsi capables maintenant d'estimer des tailles de population nécessaires à obtenir un certain niveau de confiance

dans un résultat, soit d'estimer dans quel intervalle de confiance se trouve la moyenne théorique en connaissant la moyenne expérimentale (empirique) et l'estimateur du maximum de vraisemblance de l'écart-type. Nous pouvons bien évidemment dès lors aussi déterminer la probabilité avec laquelle la moyenne est en dehors d'un certain intervalle... (l'un comme l'autre étant beaucoup utilisés dans l'industrie).

Enfin, signalons que du résultat précédent, nous déduisons immédiatement par la propriété de stabilité de la loi Normale (démontrée plus haut) le test suivant que nous retrouvons dans de très nombreux logiciels de statistiques:

appelé "test Z bilatéral sur la différence de deux moyennes" avec l'intervalle de confiance correspondant:

Et ce n'est pas parce que deux moyennes sont significativement différentes que leurs intervalles de tolérance ne se superposent pas! Comme le montre le graphique ci-dessous obtenu avec le logiciel Minitab 16 où le test-Z de la différence est significative à 95%:

Figure: 7.1 - Illustration de la superposition d'intervalle de tolérance à 95%

alors que leur moyenne est significativement différente à un seuil de confiance de 95%.

I.C. SUR LA VARIANCE AVEC MOYENNE THÉORIQUE CONNUE

Si une variable aléatoire X suit une loi Normale centrée réduite

alors son carré suit une loi du Khi-deux de degré de liberté 1:

Ce résultat est parfois appelé "statistique de Wald" et tout test statistique l'utilisant directement (on devrait plutôt parler de "famille de tests") peut être rangé sous la dénomination de "test de Wald" (pour un exemple concret voir le test de Cochran-Mantel-Haenszel dans le chapitre de Méthodes Numériques).

Pour démontrer cette propriété, il suffit de calculer la densité de la variable aléatoire

avec

. Or, si

et si nous posons

, alors pour tout

nous obtenons:

Puisque la loi Normale centrée réduite est symétrique par rapport à 0 pour la variable aléatoire X, nous pouvons écrire:

En notant

la fonction de répartition de la loi Normale centrée réduite (sa probabilité cumulée en d'autres termes pour rappel...), nous avons:

La fonction de répartition de la variable aléatoire (probabilité cumulée)

est donc donnée par:

si y est supérieur ou égal à zéro, nulle si y inférieur à zéro. Nous noterons cette répartition

pour la suite des calculs.

Puisque la fonction de distribution est la dérivée de la fonction de répartition et que X suit une loi Normale centrée réduite alors nous avons pour la variable aléatoire X:

et il s'ensuit pour la loi de distribution de Y (qui est donc le carré de X pour rappel!):

cette dernière expression correspond exactement à la relation que nous avions obtenue lors de notre étude de la loi du Khi-deux en imposant un degré de liberté unité.

Le théorème est donc bien démontré, à savoir que si X suit une loi Normale centrée réduite alors son carré suit une loi du Khi-deux à 1 degré de liberté tel que:

Ce type de relation est utilisé dans les processus industriels et leur contrôle (cf. chapitre de Génie Industriel).

Nous allons maintenant utiliser un résultat démontré lors de notre étude de la loi Gamma. Nous avons effectivement vu plus haut que la somme de deux variables aléatoires suivant une loi Gamma suit aussi une loi Gamma dont les paramètres s'additionnent:

Comme la loi du Khi-deux n'est qu'un cas particulier de la loi Gamma, le même résultat s'applique.

sont des variables aléatoires indépendantes (!) et identiquement distribuées N(0,1) alors par extension de la démonstration précédente où nous avons montré que:

et de la propriété d'addition de la loi Gamma, la somme de leurs carrés suit alors une loi du Khi-deux de degrés de liberté k telle que:

Ainsi, la loi du

à k degrés de liberté est la loi de probabilité de la somme des carrés de k variables normales centrées réduites linéairement indépendantes entre elles. Il s'agit de la propriété de linéarité de la loi du Khi-deux (implicitement de la linéarité de la loi Gamma)!

Maintenant voyons une autre propriété importante de la loi du Khi-deux: Si

sont des variables aléatoires indépendantes et identiquement distribuées

(donc de même moyenne et même écart-type et suivant une loi Normale) et si nous notons l'estimateur du maximum de vraisemblance de la variance:

alors, le rapport de la variable aléatoire

sur l'écart-type supposé connu de l'ensemble de la population (dit "écart-type vrai" ou "écart-type théorique" pour bien différencier!) multiplié par le nombre d'individus n de la population suit une loi du Khi-deux de degré n telle que:

Ce résultat est appelé "théorème de Cochran" ou encore "théorème de Fisher-Cochran" (dans le cas particulier d'échantillons gaussiens) et nous donne donc une distribution pour les écarts-types empiriques (dont la loi parente est une loi Normale).

En utilisant la valeur de l'écart-type démontrée lors de notre étude da la loi du khi-deux nous avons donc:

Mais n et

sont imposés et sont donc considérés comme des constantes. Il vient alors:

Et dès lors nous avons une expression de l'écart-type de l'écart-type empirique si nous connaissons l'écart-type de la population:

Il en découle donc la relation parfois importante dans la pratique de l'estimateur de l'écart-type de.... l'écart-type:

Rappelons que la population parente est dite "infinie" si le tirage de l'échantillon est avec remise ou encore si la taille N de la population parente est très supérieure à celle de n de l'échantillon.

Ce qui est intéressant c'est qu'à partir du calcul de la loi du Khi-deux en connaissant n et l'écart-type

il est possible d'estimer cette variance (écart-type) interclasse.

Pour voir que cette dernière propriété est une généralisation élémentaire de la relation:

il suffit de constater que la variable aléatoire

est une somme de n carrés de N(0,1) indépendants les uns des autres. Effectivement, rappelons qu'une variable aléatoire centrée réduite (voir notre étude de la loi Normale) est donnée par:

Or, puisque les variables aléatoires

sont indépendantes et identiquement distribuées selon une loi Normale, alors les variables aléatoires:

sont aussi indépendantes et identiquement distribuées mais selon une loi Normale centrée réduite.

Donc sur la population de mesures, l'écart-type vrai suit la relation donnée ci-dessus. Il est donc possible de faire de l'inférence statistique sur l'écart-type lorsque la moyenne théorique est connue (...).

Puisque la fonction du Khi-deux n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors l'intervalle de confiance à 95% (par exemple...) de la manière suivante:

le dénominateur étant alors bien évidemment le quantile de la loi du khi-2. Cette relation est rarement utilisée dans la pratique car la moyenne théorique n'est pas connue. Indiquons, aussi, qu'afin d'éviter toute confusion, cette dernière relation est souvent notée sous la forme suivante:

I.C. SUR LA VARIANCE AVEC MOYENNE EMPIRIQUE

Cherchons maintenant à faire de l'inférence statistique lorsque la moyenne théorique de la population

n'est pas connue. Pour cela, considérons maintenant la somme:

Or, nous avons démontré au début de ce chapitre que la somme des écarts à la moyenne était nulle. Donc:

et reprenons l'estimateur sans biais de la loi Normale (nous changeons de notation pour respecter les traditions et bien différencier la moyenne empirique de la moyenne théorique):

Puisque le deuxième terme (au carré) suit une loi Normale centrée réduite aussi, alors si nous le supprimons nous obtenons de par la propriété démontrée plus haut de la loi du Khi-deux:

Ces développements nous permettent cette fois-ci de faire aussi de l'inférence sur la variance

d'une loi

lorsque les paramètres

sont tous les deux inconnus pour l'ensemble de la population. C'est ce résultat qui nous donne, par exemple, l'intervalle de confiance:

lorsque la moyenne théorique

est donc inconnue. Et à aussi, pour éviter tout confusion, il est plutôt d'usage d'écrire:

De la même manière que plus haut, nous pouvons calculer l'écart-type de l'écart-type et qui a une grande importance dans la pratique de la finance:

I.C. SUR LA MOYENNE AVEC VARIANCE EMPIRIQUE CONNUE

Nous avons démontré beaucoup plus haut que la loi de Student provenait de la relation suivante:

si Z et U sont des variables aléatoires indépendantes et si Z suit une loi Normale centrée réduite N(0,1) et U une loi du Khi-deux

tel que:

Supposons que

constituent un échantillon aléatoire de taille n issu de la loi

. Alors nous pouvons déjà écrire que selon les développements faits plus haut:

Et pour U qui suit une loi

, si nous posons

alors selon les résultats obtenus plus haut:

suit une loi de Student de paramètre k alors nous obtenons le "independant one-sample t-test" (en anglais) ou "test-T à 1 échantillon":

qui suit aussi une loi de Student de paramètre n-1 et qui est très utilisé dans les laboratoires pour les tests d'étalonnages.

Ce qui nous permet de faire de l'inférence sur la moyenne

d'une loi Normale d'écart-type théorique inconnu (sous-entendu qu'il n'y a pas assez de valeurs expérimentales) mais dont l'estimateur sans biais de l'écart-type est connu. C'est ce résultat qui nous donne l'intervalle de confiance:

où nous retrouvons les mêmes indices que pour l'inférence statistique sur la moyenne (espérance) d'une variable aléatoire d'écart-type (théorique) connu puisque la loi de Student tend asymptotiquement pour de grandes valeurs de n vers une loi Normale. Ainsi, l'intervalle précédent et l'intervalle suivant:

donneront des valeurs très proches (à la troisième décimale) pour des grandeurs de n aux alentours des 10'000 (dans la pratique on considère qu'à partir de 100 c'est identique...).

Nous déduisons immédiatement par la propriété de stabilité de la loi du Khi-deux (démontrée plus haut par le fait qu'elle découle de la loi Gamma) le test suivant que nous retrouvons dans de très nombreux logiciels de statistiques:

appelé "test-T (de Student) bilatéral sur la différence de deux moyennes" (rigoureusement... sommer les degrés de liberté comme nous venons de le faire n'est valable que si les deux variances sont égales et nous démontrerons le cas général où les variances ne sont pas égales lors de la démonstration du test de Welch plus loin).

Nous pouvons bien évidemment dès lors aussi déterminer la probabilité avec laquelle la moyenne est dedans ou en dehors d'un certain intervalle... (l'une comme l'autre étant beaucoup utilisées dans l'industrie).

Le lecteur pourra s'amuser à contrôler avec la version française de Microsoft Excel 11.8346 que pour un grand nombre de mesures n, la loi de Student tend vers la loi Normale centrée réduite en comparant les valeurs des deux fonctions ci-dessous:

Remarque: Le résultat précédent fut obtenu par William S. Gosset aux alentours de 1910. Gosset qui avait étudié la mathématique et la chimie, travaillait comme statisticien pour la brasserie Guinness en Angleterre. À l'époque, on savait que si

sont des variables aléatoires indépendantes et identiquement distribuées alors:

(7.166)

Toutefois, dans les applications statistiques on s'intéressait bien évidemment plutôt à la quantité:

(7.167)

On se contentait alors de supposer que cette quantité suivait à peu près une loi Normale centrée réduite ce qui n'était pas une mauvaise approximation comme le montre l'image ci-dessous ():

equation
Figure: 7.2 - Comparaison entre la fonction de distribution Normale et celle de Student

Suite à de nombreuses simulations, Gosset arriva à la conclusion que cette approximation était valide seulement lorsque n est suffisamment grand (donc cela lui donnait l'indication comme quoi il devait y avoir quelque part derrière le théorème central limite). Il décida de déterminer l'origine de la distribution et après avoir suivi un cours de statistique avec Karl Pearson il obtint son fameux résultat qu'il publia sous le pseudonyme de Student. Ainsi, on appelle loi de Student la loi de probabilité qui aurait dû être appelée la loi ou fonction de Gosset.

Signalons enfin que le test de Student est aussi très utilisé pour identifier si des variations (progressions ou l'inverse) de la moyenne des chiffres de deux populations identiques sont statistiquement significatives. C'est-à-dire que si la taille de deux échantillons dépendants est identique alors nous pouvons créer le test suivant (nous avons indiqué tous les différents types d'écritures que l'on peut retrouver dans la littérature et dans les nombreux logiciels implémentant ce test):

La relation antéprécédente est donc très utile pour comparer deux fois le même échantillon dans des situations différentes de mesure (ventes avant ou après rabais d'un article par exemple). La relation antéprécédente est appelée "test-T (de Student) de deux moyennes d'échantillons appariés (ou échantillons dépendants)" ou plus simplement "test-T de Student pour échantillons appariés".

Définition: Nous parlons "d'échantillons appariés" (par paires) si les échantillons de valeurs sont prises 2 fois sur les mêmes individus (donc les valeurs des paires ne sont pas indépendantes, contrairement à deux échantillons pris indépendamment).

TEST BINOMIAL EXACT

Il arrive fréquemment lors de mesures que l'on souhaite comparer si deux échantillons de petite taille pris au hasard (sans remise!) d'une population elle aussi petite... sont statistiquement significativement différents ou non alors que l'on attendait une égalité parfaite!

- Savoir si un échantillon d'une population préfère utiliser une technique de travail plutôt qu'une autre alors que l'on s'attend à ce que la population utilise autant l'une que l'autre

- Savoir si un échantillon d'une population a une caractéristique prédominante parmi deux possibilités alors que l'on s'attend à ce que la population soit parfaitement équilibrée

Avant d'aller plus en détails, rappelons qu'il faut être extrêmement prudent quant à la manière d'obtenir les deux échantillons. Il faut que l'expérience soit non biaisée, cela signifie pour rappel, que le protocole de tirage ne doit en aucun cas avantager l'une au l'autre des caractéristiques de la population (si vous étudiez l'équilibre homme/femme dans une population en attirant dans le sondage des personnes grâce à un cadeau sous la forme de bijoux ou en appelant pandans les jours ouvrés vous aurez alors un échantillon biaisé... car vous aurez probablement naturellement plus de femmes que d'hommes...).

Ceci étant dit, cette situation correspond donc à une loi binomiale pour laquelle nous avons démontré plus haut dans ce chapitre que la probabilité de k réussites pour une population de taille N dont la probabilité de réussite est p (et la probabilité d'échec q donc de 1 - p) était donnée par la relation:

tout en se rappelant que la distribution ne sera pas pour autant symétrique et ce surtout si la taille N de la population est petite.

Si nous notons maintenant x le nombre de réussites (considéré comme la taille du premier échantillon) et y le nombre d'échecs (considéré comme la taille du deuxième échantillon), nous avons alors:

Ceci étant fait, pour construire le test et de par l'asymétrie de la distribution, nous allons calculer la probabilité cumulée que k soit plus petit que le x obtenu par l'expérience et la sommer à la probabilité cumulée pour que k soit plus grand que le y obtenu par l'expérience (ce qui correspond à la probabilité cumulée des queues respectivement gauche et droite de la distribution). Cette somme correspond donc à la probabilité:

Si la probabilité P obtenue pour la somme est au-dessus d'une certaine probabilité cumulée fixée à l'avance, nous dirons alors que la différence avec un échantillon tiré au hasard dans une population parfaitement équilibrée n'est pas statistiquement significative (en bilatéral...) et respectivement si elle est en-dessous, la différence sera donc statistiquement significative et nous rejetterons l'équilibre supposé.

la différence par rapport à une population équilibrée sera considérée comme non statistiquement significative. Souvent on prendra au maximum

comme valant 5% (mais rarement en-dessous) ce qui correspond donc à un intervalle de confiance de 95%.

Malheureusement d'un logiciel de statistiques à l'autre les paramètres demandés ou les résultats obtenus ne seront pas nécessairement les mêmes (les tableurs n'intègrent pas de fonction spécifique pour le test binomial, il faudra souvent construire un tableau ou programmer soi-même la fonction). Par exemple, certains logiciels calculent systématiquement et imposent (ce qui est assez logique dans un sens...):

D'une petite population ayant deux caractéristiques x et y particulières qui nous intéressaient et pour laquelle nous nous attendions à avoir un parfait équilibre tel que

mais nous avons en réalité obtenu

. Nous souhaiterions faire le calcul avec Microsoft Excel 11.8346 pour savoir si cette différence est statistiquement significative ou non à un niveau de 5%?

Pour répondre à cette question, nous allons donc calculer la probabilité cumulée:

Figure: 7.3 - Valeurs du calcul des coefficients binomiaux dans Microsoft Excel 11.8346

Figure: 7.4 - Formules du calcul des coefficients binomiaux dans Microsoft Excel 11.8346

donc la probabilité cumulée étant de 0.774 (soit 77.4%) la différence par rapport à une population équilibrée sera considérée donc comme non statistiquement significative.

I.C. POUR UNE PROPORTION

Indiquons que certains statisticiens utilisent le fait que la loi Normale découle de la loi de Poisson qui elle-même découle de la loi Binomiale (nous l'avons démontré lorsque n tend vers l'infini et que p et q sont du même ordre) pour faire un intervalle de confiance dans le cadre de l'analyse de proportions (très utilisé dans l'analyse de la qualité dans les industries).

où l'attribut A peut être la propriété "défectueux" ou "non défectueux" par exemple pour une analyse de pièces. Nous noterons k le nombre de réussites de l'attribut A.

La variable aléatoire

nous l'avons démontré au début de ce chapitre, suit une loi Binomiale de paramètres n et p avec les moments:

Ceci étant, nous ne connaissons pas la valeur vraie de p. Nous allons donc utiliser l'estimateur de la loi Binomiale démontré plus haut:

Et nous avons d'après les propriétés de la variance, la relation suivante pour la variance de la moyenne empirique de la proportion:

Maintenant rappelons enfin que nous avons démontré que la loi Normale découlait de la loi Binomiale sous certaines conditions (les praticiens admettent que c'est applicable tant que n>50 et

). Autrement dit, que la variable aléatoire X suivant une loi Binomiale suit une loi Normale sous certaines conditions. Évidemment, si X suit une loi Normale alors X/n aussi (et donc

...). Dès lors nous pouvons centrer et réduire

afin qu'il se comporte comme la variable aléatoire Normale centrée réduite notée Z:

E1. Si 5% de la production annuelle d'une entreprise est défectueuse, quelle est la probabilité qu'en prenant un échantillon de 75 pièces de la ligne de production que seulement 2% ou moins soit défectueux?

La probabilité cumulée correspondante à cette valeur de la variable aléatoire est avec la version anglaise de Microsoft Excel 11.8346:

Mais remarquez que nous n'avons pas

qui est satisfait donc normalement il est exclu d'utiliser ce résultat.

E2. Dans son rapport de 1998, la banque J.P. Morgan a expliqué que durant l'année 1998 ses pertes allèrent au-delà de la Value at Risk (cf. chapitre d'Économie) 20 jours sur les 252 jours ouvrés de l'année en se basant sur une VaR temporelle de 95% (donc 5% des journées ouvrées considérées comme à perte). Au seuil de 95% est-ce de la malchance ou est-ce que le modèle de VaR utilisé était mauvais?

Nous pouvons maintenant approximer l'intervalle de confiance pour la proportion en se basant sur la loi Binomiale et son comportement asymptotiquement Normal dans les conditions démontrées lors de notre introduction de la loi Normale tel que nous avons le "test Z à une proportion" ou "test p à une proportion" (dans le marketing appelée "test A/B"):

Avant de passer à un exemple, il est peut-être utile de préciser au lecteur que cette approximation par une loi Normale est très courante et que nous allons la rencontrer encore de nombreuse fois dans les démonstrations qui vont suivre. C'est tellement courant qu'on a même donné un nom à cette méthode...: la "méthode de Wald" (bon en réalité il y a plusieurs méthodes de Wald mais c'est la plus connue que nous utiliserons à chaque fois).

Sur une production de 300 éléments nous en avons trouvé 8 qui étaient défectueux. Quel est donc l'intervalle de confiance?

Donc il est acceptable d'utiliser l'intervalle de confiance par la loi Normale. Nous avons dès lors:

Pour clore ce sujet, nous pouvons évidemment nous intéresser aussi au nombre d'individus (taille d'échantillon) qu'il faut avoir pour satisfaire une certaine précision d'intervalle de confiance (imposé) en ayant un écart-type imposé.

Nous avons donc selon les hypothèses susmentionnées et dans l'acceptation de l'approximation par une loi Normale que:

Et en procédant de manière identique aux développements effectués plus haut avec la loi Normale, nous obtenons:

dont nous prenons évidemment normalement la valeur entière supérieure dans la pratique...

Einfin, faisons une petite excursion dans la théorie des sondages/enquêtes par rapport à une relation que nous retrouvont souvent dans la littérature spécialisée. Si la taille de la population est petite telle que le système ne peut pas être considéré avec remise, nous utilisons alors le facteur fpc démontré plus tôt. Nous avons alors:

Une question qui revient souvent dans la pratique concerne le fait de savoir s'il faut appliquer ce test en unilatéral ou bilatéral. Au fait il n'y a pas de réponse précise, tout dépend de ce que nous cherchons à mettre en évidence.

Nous souhaiterions savoir le nombre d'individus (taille d'échantillon) à prendre d'un lot de production sachant que la proportion de défectueux est imposée à 30% avec une erreur tolérée d'environ 5% entre la proportion réelle et empirique et ce afin d'obtenir un intervalle de confiance à un niveau de 95% du résultat:

TEST DE L'ÉGALITÉ DE DEUX PROPORTIONS

Toujours dans le même contexte que l'approximation précédente de la loi Binomiale par une loi Normale, l'industrie (en particulier la biostatistique) est friande de comparer deux proportions de deux populations différentes afin de savoir si elles sont statistiquement égales ou non (autrement dit: statistiquement significativement différentes ou pas).

Dès lors rappelons que nous avons démontré la stabilité de la loi Normale si deux variables aléatoires étaient indépendantes et identiquement distribuées (selon une loi Normale donc!):

Dans le cadre des hypothèses susmentionnées il en est alors de même approximativement pour la différence de deux proportions:

Dès lors nous savons que cette nouvelle variable centrée réduite suit une loi Normale selon:

et comme nous cherchons à savoir la probabilité cumulée que l'espérance théorique de la différence est nulle, cette dernière relation se réduit alors dans ce cas à:

Évidemment nous pouvons aussi construire (comme toujours...) un intervalle de confiance à partir de cette relation.

Il semblerait cependant que cette dernière relation approximative serait d'après l'expérience plus correcte en prenant pour dénominateur:

Ce test est aussi appelé "test Z de l'égalité de deux proportions". En médecine, on appelle cela le "test des différences de risque" (en sous-entendant que chaque proportion est une catégorie de population étudiée par rapport à un événement indésirable).

Dans le cadre d'un plan d'échantillonnage (cf. chapitre de Génie Industriel) nous avons prélevé sur un premier lot de 50 individus, 48 en parfait états. Dans un second lot de 30 individus, 26 étaient en bon état.

Nous souhaiterions donc savoir si la différence est statistiquement significative avec une certitude de 95% ou simplement due au hasard. Nous utilisons alors:

Ce qui correspond à une probabilité cumulée en utilisant la version anglaise de Microsoft Excel 11.8346 de:

Donc la différence est due au hasard (ceci dit c'est presque in extremis...). Autrement dit, elle n'est pas statistiquement significative sous les contraintes énoncées.

TEST DES SIGNES

Nous mesurons quelque chose sur un échantillon puis, plus tard, nous mesurons la même chose sur ce même échantillon mais avec une autre méthode (donc il s'agit donc d'échantillons appariés!). Les deux classements ordonnées des mesures sont comparés et chaque observation est affectée d'un signe ("+" en cas d'élévation dans le classement, "" en cas de descente). Celles qui restent au même niveau sont éliminées.

Selon l'hypothèse à tester, il y a autant de "+" que de "", c'est-à-dire que la médiane de la distribution n'a pas bougé (cette affirmation peut ne pas paraître évidente à la première lecture il faut donc bien prendre du temps parfois pour réfléchir là-dessus).

L'idée étant que pour chaque couple de valeurs, il n'y a que deux signes possibles de variations, nous avons une chance sur deux (50% de probabilité) que la différence soit positive ou négative. Ce test est donc basé uniquement sur l'étude des signes des différences observées entre les paires d'individus, quelles que soient les valeurs de ces différences.

- L'inégalité des proportions de signes doit être statistiquement significative. Donc l'un deux signes doit être en petit nombre par rapport à l'autre, ce qui correspond à un test unilatéral gauche (la probabilité cumulée d'avoir ce petit nombre de signes doit être inférieur à un niveau

donné).

- La proportion des deux signes doit être faiblement déséquilibrée (

). Il s'agit donc dans ce cas d'un test en bilatéral (c'est le cas le plus courant) avec un certain niveau

donné.

Pour pouvoir créer un tel test, nous allons considérons l'apparition des "+" et des "" comme un système de tirage aléatoire binaire dont l'ordre des succès n'est pas pris en compte (il s'agit donc d'une loi binomiale ou hypergéométrique) et avec remise (ce qui élimine d'emblée la loi hypergéométrique qui n'est pas symétrique et pose des problèmes d'utilisation dans la pratique...). Pour considérer un tirage aléatoire avec remise (alors qu'on ne fait pas réellement de remise), il faut que la population N soit grande. Raison pour laquelle le test des signes considère que les valeurs appariées doivent être continues (ce qui permet in extenso d'approcher la loi hypergéométrique par la loi binomiale). Cependant certains logiciels de statistiques utilisent la loi hypergéométrique pour des soucis de précision.

Considérons deux séries de mesures avec deux méthodes différentes. Nous souhaiterions tester l'hypothèse avec un niveau

de 5% si la différence entre les deux méthodes est statistiquement significative (nous nous attendons donc à une équilibre des signes). Il s'agit donc d'un test des signes à deux échantillons (sachant qu'il est possible de faire la même chose en comparant les valeurs d'un seul et unique échantillon à sa médiane).

20.4, 25.4, 25.6, 25.6, 26.6, 28.6, 28.7, 29, 29.8, 30.5, 30.9, 31.1
20.7, 26.3, 26.8, 28.1, 26.2, 27.3, 29.5, 32, 30.9, 32.3, 32.3, 31.7

Bon il est déjà clair que le résultat va être le rejet de l'hypothèse comme quoi il n'y pas de différence. Mais faisons quand même le calcul. Comme le test est en bilatéral à un niveau de 5%, la probabilité cumulée d'avoir obtenu au moins deux signes "+" ne doit pas être inférieure à 2.5% et pas supérieure à 97.5% si l'on veut accepter (ne pas rejeter) l'hypothèse comme quoi la différence n'est pas statistiquement significative.

ou si nous ne faisons pas d'approximation en étant plus précis avec la loi hypergéométrique:

Donc la probabilité cumulée est inférieure à 2.5% et n'est de loin pas supérieure à 97.5%, nous rejetons l'hypothèse comme quoi la différence n'est pas statistiquement significative.

Enfin, pour terminer concernant ce test des signes (test de la médiane), indiquons que certains logiciels de statistiques proposent un intervalle de confiance de la médiane basé sur la méthode de calcul exposée précédemment (intervalle de confiance d'une loi binomiale). Cependant, nous pensons qu'il vaudrait mieux favoriser le bootstrapping comme nous l'avons vu dans le chapitre de Méthodes Numériques, nous nous abstiendrons donc de présenter cette technique ici. De plus il est peu utile de préciser que certains font un approximation en loi Normale (comme avec la majorité des tests mais nous nous en abstiendrons dans le cas présent).

TEST DE LA MÉDIANE DE MOOD

Nous allons ici introduire un test qui a de multiples noms: "test de la médiane", "test de Mood", "test de la médiane de Mood" ou encore "test de la médiane de Westenberg-Mood" ou "test de la médiane de Brown-Mood"...

Nous considérons deux échantillons indépendants

. Nous supposons que

est un échantillon indépendant et distribué selon une loi continue F et

est un échantillon indépendant et identiquement distribué d'une loi continue G.

Après regroupement des

valeurs des deux échantillons,

(la notation n'est pas géniale car elle peut faire croire à une multiplication mais bon...) est le nombre d'observations

du premier échantillon qui sont supérieures à la médiane des

observations.

Sous l'hypothèse nulle que les variables X et Y suivent la même loi continue (c'est-à-dire G=F), la variable

peut prendre les valeurs

selon la loi hypergéométrique:

Dès lors, nous pouvons calculer la probabilité cumulée en unilatéral d'avoir k. Le test de Mood est donc un test purement unilatéral.

La médiane globale calculée avec Microsoft Excel 14.0.6123 est de 26.10. Nous avons au total:

Donc à un seuil de 5%, nous ne rejettons pas l'hypothèse nulle (mais bon étant proche de la limite c'est un peu périlleux de conclure cela...). Si nous faisons le même calcul avec la loi Binomiale nous obtenons:

Mais bien évidemment ici l'approximation ne s'applique pas puisque l'approximation par une loi binomiale est acceptable dans la pratique que lorsque l'échantillon est environ 10 fois plus petit que la population.

TEST DE POISSON (1 ÉCHANTILLON)

Nous savons qu'un certain nombre d'événements rares suivent une loi de Poisson. Nous pouvons alors nous permettre comme pour toute autre loi, de calculer la probabilité cumulée dans un intervalle donné (bilatéral ou unilatéral).

Donc, si nous avons une variable aléatoire discrète suivant une loi de Poisson:

Nous avons alors en unilatéral droite à un certain niveau de confiance

, la valeur de n de k la plus proche satisfaisant la condition:

Donc pour trouver la valeur de n (entier strictement positif ou nul) il faudrait inverser la somme, ce qui est peu... pratique (raison pour laquelle aucun tableur à ce jour ne propose de fonction pour la loi de Poisson inverse).

Maintenant, rappelons que nous avons vu dans le chapitre de Suites Et Séries, la série de Taylor (Maclaurin) avec reste intégral à l'ordre n-1 autour de 0 jusqu'à

Résultat que nous avions également donné sous la forme de fonctions pour la version française de Microsoft Excel 14.0.6123 pour que le lecteur puisse vérifier cette équivalence:

Il vient alors que dans les tableurs, nous pouvons utiliser la loi du Khi-deux inverse pour calculer l'inverse de la loi de Poisson avec cette fois cependant une petite nuance: le résultat ne donnera pas nécessairement un nombre entier.

Si par exemple nous prenons (toujours avec la version française de Microsoft Excel 14.0.6123):

La question est alors de trouver l'écriture pour l'inverse... Celle-ci est alors donnée par (on divise par deux pour tomber pile poile sur la moyenne qui est donc la valeur qui nous intéresse):

Finalement, l'écriture de l'inverse est assez naturelle. Ainsi, le "test de Poisson à 1 échantillon" à un niveau

donné en unilatéral droite peut s'écrire:

Attention cependant à une chose! Il semblerait que certains logiciels de statistiques approximent parfois un peu abusivement la loi de Poisson par une loi Normale. Dès lors, l'intervalle unilatéral se calcule à partir de:

Une société fabrique des télévisions en quantité constante et a mesuré le nombre d'appareils défectueux produits chaque trimestre pendant les dix dernières années (donc 4 fois 10 mesures). La direction décide que le nombre maximum acceptable d'unités défectueuses est de 20 par trimestre et souhaite déterminer si l'usine satisfait à ces exigences (sous l'hypothèse que la distribution des défectueux suive une loi de Poisson) à un niveau de confiance de 5%.

Dans les deux cas, nous sommes en-dessous de la moyenne imposée de 20 (donc on rejette l'hypothèse nulle comme quoi le nombre de défauts est supérieur ou égal à 20). Bien évidemment, il est possible pour chacune des méthodes de déterminer quelle devrait être la probabilité cumulée (niveau de confiance) qui nous amène à la limite des 20 (donc la p-value en d'autres termes sur laquelle nous reviendrons plus loin). Avec la première méthode (approximation normale), la p-value est de 0.104%.

Une compagnie d'aviation a eu 2 deux crashs en 1'000'000 de vols (événement très rare). Quelle est l'intervalle de confiance en bilatéral à 95% sachant qu'au niveau mondial le nombre d'accident par millions est de 0.4.

Soit pour la borne supérieure avec un tableur comme la version française de Microsoft Excel 11.8346:

Donc statistiquement, cette compagnie est moins sûre que l'ensemble des compagnies.

TEST DE POISSON (2 ÉCHANTILLONS)

Or, en suivant le même raisonnement que celui qui nous a amené à construire le test de comparaison des moyennes suivant:

ou son équivalent avec la loi de Student quand l'écart-type vrai n'est pas connu et en utilisant le fait que nous avons démontré que la loi de Poisson est stable par l'addition (et donc aussi par la soustraction), que la loi de Gamma était aussi stable par l'addition (et donc aussi par la soustraction) et la loi du Khi-deux aussi puisque ce n'est qu'un cas particulier de la loi Gamma. Nous aurions peut-être tendance à écrire un peu une généralisation logique de ce que nous avons vu juste plus haut:

Et au fait cela constitue un piège selon certains praticiens... Car la loi du Khi-deux a un support qui est défini comme étant strictement positif et l'intervalle de confiance peut naturellement avoir la borne de gauche qui est négative (... O_o). Une solution consiste alors à utiliser le test de la différence de deux proportions que nous avons déjà étudié plus haut:

À condition bien évidemment que les conditions permettant d'approcher le test par une loi Normale soient satisfaites (les proportions doivent être inférieures typiquement à 0.1 et les n supérieurs à 50).

Certains logiciels semblent avoir implémenté cette dernière méthode (avec laquelle je ne suis pas forcément d'accord).

Une compagnie d'aviation a eu 2 deux crashs en 1'000'000 de vols (événement très rare). Une autre compagnie a eu 3 crashs en 1'200'000 vols. Quel est l'intervalle de confiance en bilatéral à 95% en supposant que la différence est nulle.

ce qui donne un intervalle de confiance pour la différence de proportion théorique attendue:

et donc comme -0.0000005 est dans cet intervalle, nous acceptons l'hypothèse comme quoi la différence des proportions n'est pas statistiquement significative au seuil de 5%.

Ou en prenant l'expression non approximée, nous avons (avec la même conclusion):

Donc pour résumer un peu les convergences de lois dans tous ces différents tests et intervalles que nous avons vu jusqu'à maintenant, nous proposons au lecteur le schéma suivant qui clarifiera peut-être plus ou moins bien les choses:

Figure: 7.5 - Convergence des différentes lois usuelles en inférence statistique élémentaire

Et aussi ce tableau où toutes les relations ont été démontrées en détail plus haut et certains déjà utilisées (d'autres le seront plus loin):

INTERVALLE DE CONFIANCE/TOLÉRANCE/PRÉDICTION

Nous allons ici, afin d'éviter une confusion fréquente et avant de passer à d'autres sujets plus complexes, comparer l'intervalle de confiance, l'intervalle de tolérance (souvent appelé "intervalle de fluctuation" dans certains programmes scolaires) et enfin l'intervalle de prédiction.

D1. "L'intervalle de tolérance" (ou "intervalle de fluctuation") est un intervalle contenant un certain pourcentage (souvent 68.26, 95.44 ou 99.73% pour une distribution Normale) des individus d'une population de mesures.

D2."L'intervalle de confiance" pour un échantillon de moyenne

(ou de proportion p) contient l'intervalle de valeur à un niveau de confiance donné (souvent 90, 95 ou 99% dans le cas bilatéral) de l'espérance

(moyenne vraie) ou de la proportion de la population.

D3. "L'intervalle de prédiction" permet de déterminer un intervalle d'une valeur individuelle basée sur la connaissance de la moyenne échantillonnale et de l'écart-type de la population.

Un exemple valant mieux assez souvent mieux que mille mots, prenons le cas où la moyenne et l'écart-type de prix de 49 DVD sont:

correspondant respectivement à des intervalles de tolérance selon une loi Normale de 68.26, 95.44 et 99.73%.

Par contre, un intervalle de confiance à 95% basé sur la relation démontrée plus haut:

Donc 95% de probabilité cumulée que la moyenne vraie (espérance) se trouve comprise entre 31.32 et 31.78.

Maintenant passons à une notion qui curieusement est rarement traitée dans les ouvrages de statistiques. L'idée de l'intervalle de prédiction est de plutôt que de s'intéresser à l'intervalle de confiance de l'espérance basé sur une moyenne expérimentale, d'utiliser cette moyenne expérimentale (échantillonnale) comme base pour prévoir l'intervalle d'une unique valeur (et non d'une moyenne!).

Nous allons donc nous intéresser à la différence entre la moyenne et une valeur ponctuelle:

que nous supposerons proche de zéro (il vaut mieux pour avoir un produit fiable et passer les tests d'autorisation des ventes...). Concernant la variance, ce qui nous intéresse ce n'est plus simplement l'écart-type de la moyenne mais l'écart-type de la différence... et comme l'échantillon est indépendant de la valeur unique nous avons:

LOI FAIBLE DES GRANDS NOMBRES

Nous allons maintenant nous attarder sur une relation très intéressante en statistiques qui permet de dire pas mal de choses tout en ayant peu de données et ce quelle que soit la loi considérée (ce qui est pas mal quand même!). C'est une propriété très utilisée en simulation statistique par exemple dans le cadre de l'utilisation de Monte-Carlo.

Soit une variable aléatoire à valeurs dans

. Alors nous allons démontrer la relation suivante appelée "inégalité de Markov":

En d'autres termes, nous proposons de démontrer que la probabilité qu'une variable aléatoire soit plus grande ou égale qu'une valeur

est inférieure ou égale à son espérance divisée par la valeur considérée

et ce quelle que soit la loi de distribution de la variable aléatoire X!

Notons les valeurs de X par

, où

(c'est-à-dire triées par ordre croissant) et posons

. Nous remarquons d'abord que l'inégalité est triviale au cas où

. Effectivement, comme X ne peut être compris qu'entre 0 et

par définition alors la probabilité qu'il soit supérieur à

est nulle. En d'autres termes:

et X étant positif, E(X) l'est aussi, d'où l'inégalité pour ce cas particulier dans un premier temps.

Nous supposons que le nombre de pièces sortant d'une usine donnée en l'espace d'une semaine est une variable aléatoire d'espérance 50. Si nous souhaitons estimer la probabilité cumulée que la production dépasse 75 pièces nous appliquerons simplement:

Considérons maintenant une sorte de généralisation de cette inégalité appelée "inégalité de Bienaymé-Tchebychev" (abrégée "inégalité BT") qui va nous permettre d'obtenir un résultat très très très intéressant et important un peu plus bas.

Considérons une variable aléatoire X réelle (donc nous ne nous limitons pas au seul cas où elle est dans

). Alors nous allons démontrer l'inégalité de Bienaymé-Tchebychev suivante:

qui exprime le fait que plus l'écart-type est petit, plus la probabilité que la variable aléatoire X s'éloigne de son espérance est faible.

Puis en appliquant l'inégalité de Markov (comme quoi c'est quand même utile...) à la variable aléatoire

avec

il vient automatiquement:

et exprime que la probabilité cumulée qu'afin que X s'éloigne de son espérance de plus que t fois son écart-type, est inférieure à

. Il y a, en particulier, moins de 1 chance sur 9 pour que X s'éloigne de son espérance de plus de trois fois l'écart-type. C'est par ailleurs ce théorème qu'a utilisé le comité de Bâle pour définir le facteur de correction de la Value At Risk utilisé en finance (cf. chapitre d'Économie).

Nous reprenons l'exemple où le nombre de pièces sortant d'une usine donnée en l'espace d'une semaine est une variable aléatoire d'espérance 50. Nous supposons en plus que la variance de la production hebdomadaire est de 25. Nous cherchons à calculer la probabilité que la production de la semaine prochaine soit comprise entre 40 et 60 pièces.

Pour calculer ceci il faut d'abord se souvenir que l'inégalité de BT est basée en partie sur le terme

donc nous avons:

donc l'inégalité de BT nous permet bien de travailler sur des intervalles égaux en valeur absolue ce qui s'écrit aussi:

Les deux dernières inégalités obtenues avant l'exemple vont nous permettre d'obtenir une relation très importante et puissante que nous appelons la "loi faible des grands nombres" (L.F.G.N.) ou encore "théorème de Khintchine".

Considérons une variable aléatoire X admettant une variance et

une suite de variables aléatoires indépendantes (donc non corrélées deux-deux) de même loi que X et ayant toutes les mêmes espérances

et les mêmes écarts-types

Ce que nous allons montrer est que si nous mesurons une même quantité aléatoire

de même loi au cours d'une suite d'expériences indépendantes (alors dans ce cas, nous disons techniquement que la suite

de variables aléatoires est définie sur le même espace probabilisé), alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance de X quand le nombre de mesures est infiniment élevé.

lorsque

c'est cela le résultat très important dont nous faisions mention plus haut! L'estimateur empirique de la moyenne tend donc pour toute loi vers l'espérance vraie si n est grand! Donc de par la même nous assurons que la moyenne empirique est un estimateur convergent de l'espérance! Ce résultat (assez intuitif) est parfois appelé "théorème fondamental de Monte-Carlo" car il est au centre du principe des simulations du même nom (cf. chapitre de Méthodes Numériques) qui ont une importance cruciale dans l'étude des statistiques avancées.

Donc en d'autres termes la probabilité cumulée que la différence entre la moyenne arithmétique et l'espérance des variables aléatoires observées soit comprise dans un intervalle autour de la moyenne tend vers zéro quand le nombre de variables aléatoires mesurées tend vers l'infini (ce qui est finalement intuitif).

Ce résultat nous permet d'estimer l'espérance mathématique en utilisant la moyenne empirique (arithmétique) calculée sur un très grand nombre d'expériences.

Nous utilisons l'inégalité de Bienaymé-Tchebychev pour la variable aléatoire (cette relation s'interprète difficilement mais permet d'avoir le résultat escompté):

Et nous calculons d'abord en utilisant les propriétés mathématiques de l'espérance que nous avions démontrées plus haut:

et dans un deuxième temps en utilisant les propriétés mathématiques de la variance aussi déjà démontrées plus haut:

et puisque nous avons supposé les variables non corrélées entre elles alors la covariance est nulle dès lors:

et l'inégalité tend bien vers zéro quand n au dénominateur tend vers l'infini.

Signalons que cette dernière relation est souvent notée dans certains ouvrages et conformément à ce que nous avons vu au début de ce chapitre:

FONCTION CARACTÉRISTIQUE

Avant de donner une démonstration à la manière de l'ingénieur du théorème central limite, introduisons d'abord le concept de "fonction caractéristique" qui tient une place centrale en statistiques.

D'abord, rappelons que la transformée de Fourier est donnée dans sa version physicienne par (cf. chapitre de Suites et Séries) la relation:

Rappelons que la transformation de Fourier est un analogue de la théorie des séries de Fourier pour les fonctions non périodiques, et permet de leur associer un spectre en fréquences. Au facteur près, il s'agit d'une "transformée de Laplace bilatérale" donnée par:

avec p qui est la variable complexe donnée dans le cas présent par (la partie réelle est nulle puisque la transformée de Fourier n'est que le cas particulier d'une transformée de Laplace dont la partie réelle de la variable est nulle: dont faire une transformée de Fourier c'est faire une transformée de Laplace sur l'axe des complexes uniquement):

En d'autres termes, nous cherchons une expression simplifiée de la transformée de Fourier de la dérivée de f(x).

Maintenant effectuons le calcul de la transformée de Fourier de la loi Normale centrée-réduite (ce choix n'est pas innocent...):

Nous savons que cette dernière relation est trivialement solution de l'équation différentielle (ou bien elle vérifie):

en prenant la transformée de Fourier des deux côté de l'égalité, nous avons en utilisant les deux résultats précédents:

Introduisons maintenant la fonction caractéristique telle que définie par les statisticiens:

qui est un outil analytique important et puissant permettant d'analyser une somme de variables aléatoires indépendantes. De plus, cette fonction contient toutes les informations caractéristiques de la variable aléatoire X.

Donc la fonction caractéristique de la variable aléatoire normale centrée réduite de distribution:

Raison pour laquelle la fonction caractéristique de la loi Normale centrée réduite est souvent assimilée à une simple transformée de Fourier.

qui est le résultat dont nous avons besoin pour le théorème central limite. Cette fonction caractéristique est égale, à une constante près, à la densité de probabilité de la loi. Nous disons alors que la fonction caractéristique d'une gaussienne est gaussienne.

En développement de Maclaurin nous avons (cf. chapitre Suites et Séries) et en changeant un peu les notations:

Cette fonction caractéristique contient donc tous les moments (terme général utilisé pour l'écart-type et l'espérance) de X.

THÉORÈME CENTRAL LIMITE

Le théorème central limite est un ensemble de résultats du début du 20ème siècle sur la convergence faible d'une suite de variables aléatoires en probabilité. Intuitivement, d'après ces résultats, toute somme (implicitement: la moyenne de ses variables) de variables aléatoires indépendantes et identiquement distribuées tend vers une certaine variable aléatoire. Le résultat le plus connu et le plus important est simplement appelé "théorème central limite" qui concerne une somme de variables aléatoires indépendantes avec variance existante dont le nombre tend vers l'infini et c'est celui-ci que nous allons démontrer de manière heuristique ici.

Dans le cas le plus simple, considéré ci-dessous pour la démonstration du théorème, ces variables sont continues, indépendantes et possèdent la même moyenne et la même variance. Pour tenter d'obtenir un résultat fini, il faut centrer cette somme en lui soustrayant sa moyenne et la réduire en la divisant par son écart-type. Sous des conditions assez larges, la loi de probabilité (de la moyenne) converge alors vers une loi Normale centrée réduite. L'omniprésence de la loi Normale s'explique par le fait que de nombreux phénomènes considérés comme aléatoires sont dus à la superposition de causes nombreuses.

Ce théorème de probabilités possède donc une interprétation en statistique mathématique. Cette dernière associe une loi de probabilité à une population. Chaque élément extrait de la population est donc considéré comme une variable aléatoire et, en réunissant un nombre n de ces variables supposées indépendantes, nous obtenons un échantillon. La somme de ces variables aléatoires divisée par n donne une nouvelle variable nommée la moyenne empirique. Celle-ci, une fois réduite, tend vers une variable Normale réduite lorsque n tend vers l'infini comme nous le savons.

Le théorème central limite nous dit à quoi il faut s'attendre en matière de sommes de variables aléatoires indépendantes. Mais qu'en est-il des produits? Eh bien, le logarithme d'un produit (à facteurs strictement positifs) est la somme des logarithmes des facteurs, de sorte que le logarithme d'un produit de variables aléatoires (à valeurs strictement positives) tend vers une loi Normale, ce qui entraîne une loi log-Normale pour le produit lui-même.

En elle-même, la convergence vers la loi Normale ("normalité asymptotique") de nombreuses sommes de variables aléatoires lorsque leur nombre tend vers l'infini n'intéresse que le mathématicien. Pour le praticien, il est intéressant de s'arrêter un peu avant la limite: la somme d'un grand nombre de ces variables est presque gaussienne, ce qui fournit une approximation souvent plus facilement utilisable que la loi exacte.

En s'éloignant encore plus de la théorie, on peut dire que bon nombre de phénomènes naturels sont dus à la superposition de causes nombreuses, plus ou moins indépendantes. Il en résulte que la loi Normale les représente de manière raisonnablement efficace.

A l'inverse, on peut dire qu'aucun phénomène concret n'est vraiment Gaussien car il ne peut dépasser certaines limites, en particulier s'il est à valeurs positives.

Soit

une suite (échantillon) de variables aléatoires continues (dans notre démonstration simplifiée...), indépendantes (mesures de phénomènes physiques ou mécaniques indépendants par exemple) et identiquement distribuées, dont la moyenne

et l'écart-type

existent (ce qui signifie que le théorème central limite fonctionne que pour les phénomènes à variance finie!!!).

sont les mêmes expressions d'une variable centrée réduite générée à l'aide d'une suite de n variables aléatoires identiquement distribuées qui par construction a donc une moyenne nulle et une variance unitaire:

Développons la première forme de l'égalité antéprécédente (les 2 sont de toute façon égales!):

Maintenant utilisons la fonction caractéristique de la loi Normale centrée-réduite (nous allégeons par la même occasion l'écriture des estimateurs de la moyenne et de l'écart-type):

Comme les variables aléatoires

sont indépendantes et identiquement distribuées, il vient:

Un développement de Taylor (cf. chapitre de Suites Et Séries) du terme entre accolades donne au troisième ordre (développement en série de Maclaurin de l'exponentielle):

Nous retrouvons donc la fonction caractéristique de la loi Normale centrée réduite!

En deux mots, le Théorème Central Limite (TCL) dit que pour de grands échantillons, la somme centrée et réduite de n variables aléatoires identiquement distribuées suit une loi Normale centrée et réduite. Et donc nous avons in extenso pour la moyenne empirique:

Malgré l'immensité de son champ d'applications, le TCL n'est pas universel. Dans sa forme la plus simple, il impose en particulier à la variable considérée d'avoir des moments du premier et du deuxième ordre (moyenne et variance). Si tel n'est pas le cas, il ne s'applique plus.

L'exemple le plus simple d'échec du TLC est donné par la distribution de Cauchy, qui n'a ni moyenne, ni variance, et dont la moyenne empirique a toujours la même distribution (Cauchy) quelle que soit la taille de l'échantillon.

Maintenant, nous allons illustrer le théorème central limite dans le cas d'une suite

de variables aléatoires indépendantes discrètes suivant une loi de Bernoulli de paramètre 1/2.

Nous pouvons imaginer que

représente le résultat obtenu au n-ème lancé d'une pièce de monnaie (en attribuant le nombre 1 pour pile et 0 pour face). Notons:

A l'aide de Maple 4.00b nous avons tracé en bleu quelques graphiques de la fonction:

Figure: 7.7 - Première approche de la loi de Bernoulli par le loi Normale selon le TCL

Figure: 7.8 - Deuxième approche de la loi de Bernoulli par le loi Normale selon le TCL

Figure: 7.9 - Troisième approche de la loi de Bernoulli par le loi Normale selon le TCL

Figure: 7.10 - Quatrième approche de la loi de Bernoulli par le loi Normale selon le TCL

> with(stats):
> with(plots):
> e1:=plot(Heaviside(t+1)*statevalf[dcdf,binomiald[1,0.5]](trunc((t+1)/2)),t=-2..2,y=0..1,color=blue):
> e2:=plot(Heaviside(t+sqrt(2))*statevalf[dcdf,binomiald[2,0.5]](trunc((t*sqrt(2)+2)/2)),t=-sqrt(2)-1..sqrt(2)+1,y=0..1,color=blue):
> e3:=plot(Heaviside(t+sqrt(5))*statevalf[dcdf,binomiald[5,0.5]](trunc((t*sqrt(5)+5)/2)),t=-sqrt(5)-1..sqrt(5)+1,y=0..1,color=blue):
> e4:=plot(statevalf[cdf,normald](t),t=-5..5):
> e5:=plot(Heaviside(t+sqrt(30))*statevalf[dcdf,binomiald[30,0.5]](trunc((t*sqrt(30)+30)/2)),t=-sqrt(30)-1..sqrt(30)+1,y=0..1,color=blue):
> display({e1,e4});
> display({e2,e4});
> display({e4,e3});
> display({e5,e4});

En fait nous remarquons que la convergence est carrément uniforme ce qui est confirmé par le "théorème central limite de Moivre-Laplace":

Soit

une suite de variables aléatoires indépendantes de même loi de Bernoulli de paramètre p,

. Alors:

TESTS D'HYPOTHÈSE ET D'ADÉQUATION

Lors de notre étude des intervalles de confiance, rappelons que nous sommes arrivés aux quelques relations suivantes (ce n'est que l'échantillon des plus importantes démontrées plus haut!):

qui permettaient donc de faire de l'inférence statistique en fonction de la connaissance ou non de la moyenne ou de la variance vraie sur la totalité ou sur un échantillon de la population. En d'autres termes de savoir dans quelles bornes se situait un moment (moyenne ou variance) en fonction d'un certain niveau de confiance

imposé. Nous avions vu que le deuxième intervalle ci-dessus ne peut être que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le troisième.

Nous allons également démontrer en détails plus loin les deux intervalles suivants:

Le premier intervalle ci-dessus ne peut être lui aussi que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le deuxième.

Définition: Lorsque nous cherchons à savoir si nous pouvons faire confiance à la valeur d'une statistique (moyenne, médiane, variance, coefficient de corrélation, etc.) avec une certaine certitude, nous parlons de "test d'hypothèse" et plus particulièrement de "test de conformité" (nous parlons de "test d'adéquation" quand il s'agit de vérifier que des mesures suivent bien une loi donnée et non juste une statistique).

Les tests d'hypothèses sont destinés à vérifier si un échantillon peut être considéré comme extrait d'une population donnée ou représentatif de cette population, vis-à-vis d'un paramètre comme la moyenne, la variance ou la fréquence observée. Ceci implique que la loi théorique du paramètre soit connue au niveau de la population. Les tests d'hypothèses ne sont pas faits pour démontrer l'hypothèse nulle (exprimant généralement une égalité ou une homogénéité entre différentes populations), mais pour éventuellement la rejeter (dispons pour être exact que le rejet est plus robuste). Au niveau de la communication des tests statistiques un certain nombre de spécialistes recommandent:

1. De toujours communiquer la p-value avec 4 chiffres après la virgule (nous reviondrons plus loin sur ce concept).

2. De ne jamais dire qu'un p-value faible montre une amplitude importante de l'effet étudié car cela n'est pas forcéement vrai (pour le vérifier il suffit de prendre un phénomène de très petite amplitude sur une gros échantillon et la p-value deviendra toute de suite très petite par construction).

3. De toujours donner l'intervalle de confiance du test qu'il soit unilatéral ou bilatéral.

4. De bien se garder de fixer un seuil de rejet au test excepté si une norme ou législation l'impose (dans ce dernier cas on précisera laquelle).

5. De ne jamais dire que le test est "démontré", ou "significatif" ou même "statistiquement significatif". Juste dire que le résultat est "statistique" ou que nous avons la "probabilité des données connaissant l'hypothèse nulle" et c'est tout!

6. Si l'intérêt est de montrer l'hypothèse nulle et que cette dernière n'est pas rejetée, étant donné souvent sa puissance statistique faible, il faudra répéter l'expérience pour conforter la conclusion.

7. Si l'intérêt est de rejeter l'hypothèse nulle et que cela se vérifie, une bonne pratique scientifique est de chercher des études supplémentaires qui mettraient en défaut la conclusion.

8. S'il y a absence par exemple de différence statistique entre deux valeurs, cela ne signfie pas pour autant qu'il y ait présence statistique d'équivalence. Il faut alors procéder à des "tests d'équivalences".

9. La rejet de l'hypothèse nulle ne signifie pas que le méchanisme du phénomène étudié a été mis en évidence mais indique juste pour rappel une information de taille sur les données a posteriori.

Bref, les études doivent être diffisusées en respectant le principe de véracité, après avoir fait l'objet des vérifications de rigueur, et doivent être exposées, décrites et présentées avec impartialité. Il ne faut pas confondre résultats objectifs et spéculations. Les conclusions doivent être l'expression le plus fidèle possible du contenu des faites et des données.

Par exemple, si nous souhaitons savoir avec une certaine confiance si une moyenne donnée d'un échantillon de population est réaliste par rapport à la vraie moyenne théorique inconnue, nous utiliserons le "test-Z" qui est simplement:

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

Donc pour la différence de deux moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

La relation qui est très utile lorsque pour deux échantillons de deux populations de données, nous voulons vérifier s'il existe une différence statistiquement significative des différences des moyennes théoriques à un niveau de confiance

fixé et la probabilité associée pour avoir cette différence:

Nous parlons du "test-Z de la moyenne à deux échantillons" et il est beaucoup utilisé dans l'industrie pour vérifier l'égalité de la moyenne de deux populations de mesures.

Et si l'écart-type théorique n'est pas connu, nous utiliserons le "test-T" de Student (pas mal utilisé en pharmaco-économie) démontré plus haut:

Dans la même idée pour l'écart-type, nous utiliserons le "test du Khi-deux (de la variance)" aussi déjà démontré plus haut:

Et lorsque nous voulons tester l'égalité de la variance de deux populations nous utilisons le "test-F" de Fisher (démontré plus bas lors de notre étude de l'analyse de la variance):

Dans la pratique il faut avoir conscience que le but d'un test est très très souvent de montrer que l'effet est significatif. Il est alors d'usage de dire que le test réussit si l'hypothèse nulle est rejetée au profit de l'hypothèse alternative. Lorsque le praticien sait que l'effet est significatif et pourtant que son test échoue à rejeter l'hypothèse nulle on parle parfois du "dilemne du non rejet de l'hypothèse nulle". Comme nous le verrons un peu plus loin, l'idée est alors de calculer à posteriori la puissance du test (celle-ci étant alors appelée par certains logiciels comme SPSS: "puissance observée") et d'adapter la taille de l'échantillon en conséquence pour avoir une puissance acceptable selon la tradition d'usage.

ORIENTATION DU TEST D'HYPOTHÈSE

Le fait que nous obtenions l'ensemble des valeurs satisfaisant à un testborné à droite et (!) à gauche est ce que nous appelons dans le cas général un "test bilatéral" car il comprend le test unilatéral à gauche et unilatéral à droite. Ainsi, tous les tests susmentionnés sont dans une forme bilatérale mais nous pourrions en faire une utilisation unilatérale aussi! Nous utilisons un test unilatéral lorsque la différence attendue (ou à mettre en évidence) ne peut aller que dans un sens (typiquement dans le cas des essais cliniques ou lors d'un action corrective de contrôle qualité en industrie pour laquelle nous nous attendons à une amélioration allant dans une unique direction). Les test unilatéraux sont parfois nommés "test de non-infériorité" (unilatéral gauche) ou "test de non-supériorité" (unilatéral droite).

Ci-dessous, nous avons représenté par exemple un test unilatéral à droite (car la région de rejet est à droite et donc la probabilité cumulée est unilatérale gauche) et un test bilatéral:

Figure: 7.11 - Illustration d'un test (ou intervalle de confiance) unilatéral à droite et bilatéral

Nous pouvons également résumer la manière de déterminer la p-value (sur laquelle nous reviendrons plus loin en détail) par le logigramme suivant:

Figure: 7.12 - Figure de résumé pour déterminer la p-value lors de tests paramétriques à distribution symétrique

Signalons aussi que les tests d'hypothèses sur l'écart-type (variance), la moyenne ou la corrélation sont appelés des "tests paramétriques" à l'inverse des tests non paramétriques que nous verrons beaucoup plus loin.

Enfin, de nombreux logiciels calculent donc ce que nous appelons la "p-value" qui est le risque calculé (probabilité)

qu'aurait pu fixer le statisticien pour être à la limite entre l'acceptation de l'hypothèse nulle et son rejet (rappelons qu'un test qui réussit ne prouve rien). La p-value est donc une valeur fondamentale dans le domaine car elle permet de chiffrer la vraisemblance de l'hypothèse nulle

(acception ou rejet).

Mais en toute rigueur la p-value est la probabilité conditionnelle (bayésienne), que nos données satisfont l'hypothèse nulle

et non la probabilité de l'hypothèse nulle connaissant les données! Même si la différence peut être faible comme nous l'avons vu dans le chapitre de Probabilités, elle n'en est pas moins non nulle! Donc la p-value en réalité ne dit rien sur l'hyphothèse elle-même, mais elle donne une information sur les données expérimentales.

Pour un test d'hypothèse, par exemple, le 5% de risque

est celui de rejeter l'hypothèse nulle

alors même qu'elle est vraie. Si le risque imposé/choisi est 5% et que la p-value calculée est inférieure (dans la majorité des tests mais il faut être prudent car ce n'est pas une généralité!!!), le test échoue (rejet de l'hypothèse nulle) en faveur d'une hypothèse alternative notée

ou parfois

L'hypothèse alternative a bien évidemment elle-même son propre risque que nous notons

et sa propre p-value. Donc lorsque l'hypothse nulle n'est pas rejetée, le risque associé à cette décision est un risque de deuxième espèce. Pour l'évaluer, il faudrait donc calculer le puissance du test considéré.

Peut-être, pour mieux comprendre, voici une illustration d'un cas particulier d'un test d'hypothèse bilatéral de la moyenne pour une variable aléatoire suivant typiquement une loi Normale (en gros c'est le même principe pour tous les tests...):

Ainsi, dans le cas présenté ci-dessus, nous voyons mieux pourquoi l'hypothèse nulle peut donc être acceptée ou rejetée en faveur de l'hypothèse alternative (qui est de même loi que l'hypothèse nulle mais juste décalée) dépendant de la valeur de référence mesurée qui sera utilisée pour le test (en l'occurence dans le cas particulier il s'agit de la moyenne arithmétique des mesures).

Nous remarquons aussi que la zone rouge de l'hypothèse alternative, correspondant à la probabilité cumulée

, est confondue en partie avec la partie jaune de l'hypothèse nulle. Raison pour laquelle nous pouvons parfois accepter l'hypothèse nulle à tort. Nous voyons cependant que plus

serait petit, plus l'hypothèse alternative serait donc éloignée de la zone limite rouge de l'hypothèse nulle (cela correspondrait à une translation vers la droite dans le cas présent) et moins la probabilité de faire une fausse conclusion est grande. Raison pour laquelle nous parlons de "risque

" car plus celui-ci est petit, mieux c'est. In extenso, plus

est grand, moins il y a de risque de confondre l'hypothèse nulle et alternative. Raison pour laquelle

est appelé "puissance du test" (voir plus bas la section qui est consacrée à cette notion).

Nous acceptons l'hypothèse nulle si la p-value est plus grande que 5% (0.05). Au fait, plus la p-value est grande, mieux c'est car l'intervalle de confiance est de plus en plus petit. Si l'intervalle de confiance vient à être énorme (très proche de 100%) car la p-value est très petite alors l'analyse n'a plus vraiment de sens physiquement parlant!

Ainsi, si la p-value est faible, c'est qu'il faudrait prendre un risque faible de se tromper, donc accepter dans presque tous les cas l'hypothèse testée...

Remarque:

Nous ne devrions jamais dire que nous "acceptons" une hypothèse ou encore qu'elle est "vraie" ou "fausse" car ces termes sont trop forts et pourraient faire penser à une preuve scientifique. Nous devrions dire si nous "rejetons" ou "ne rejetons pas" l'hypothèse nulle et qu'elle est éventuellement "correcte" ou "non correcte".

Pour les test d'hypothèses bilatéraux, nous pouvons par exemple dire que nous avons (ou n'avons pas) une différence significative entre la valeur de référence mesurée et la valeur attendue. Pour les tests unilatéraux, nous pouvons dire que la valeur de référence mesurée est significativement plus grande ou plus petite que la valeur attendue.

Par ailleurs si le lecteur a bien compris la construction des tests d'hypothèses, le fait de rejeter une hypothèse à tort ("Erreur de Type I" ou "Erreur de première espèce") est donc plus robuste que de l'accepter à tort ("Erreur de type II" ou "Erreur de deuxième espèce").

Le lecteur remarquera aussi en s'aidant de la figure précédent qu'un test unilatéral a une plus forte puissance qu'un test unilatéral (a même niveau de risque bien entendu!). Ainsi, une différence non statistiquement significative en test bilatéral, peut s'avérer statistiquement significative en unilatéral.

D1. La probabilité

de l'erreur de Type I (de première espèce/faux négatif) est la probabilité de rejet de l'hypothèse nulle alors qu'elle est vraie.

D2. La probabilité

de l'erreur de Type II (de deuxième espèce/faux positif) est la probabilité de maintien de l'hypothèse nulle alors qu'elle est fausse.

Ainsi, un critère traditionnel de sélection de test est d'utiliser le principe suivant: parmi tous les tests qui ont la même grandeur de l'erreur de type I, choisir celui qui a la plus petite grandeur de l'erreur de type II.

En général, la grandeur de l'erreur de type II augmente lorsque celle de l'erreur de type I diminue. Nous ne pouvons pas minimiser les deux erreurs à la fois. Pour cette raison, nous prenons souvent une valeur donnée pour

, la grandeur de l'erreur de type I, et nous minimisons

, la grandeur de l'erreur de type II.

Pour clore, voici les trois situations types de tests d'hypothèses sur la statistique qu'est la moyenne dans le cadre d'une distribution sous-jacente normale et dont l'espérance est dans ce cas particulier supposée nulle et de variance unitaire (car on peut très souvent ce ramener à ce cas particulier en centrant et réduisant la variable aléatoire sous-jacente):

Figure: 7.14 - Les trois scénarios possibles d'un test d'hypothèse sur la moyenne

Indiquons que cela n'a aucun sens (contrairement à ce que nous pouvons parfois lire sur certains supports papier ou électronique) d'avoir les hypothèses nulles suivantes dans le cas paticulier représenté ci-dessus:

avec l'hypothèse alternative qui en découle automatiquement (je ne l'ai pas écrite car c'est inutile). La raison en est simple: comment pourriez-vous positioner votre distribution Normale centrée réduite si l'espérance n'est pas fixée...??? Raison pour laquelle l'hypothèse nulle dans le cadre des tests sur la moyenne (et d'un certain autre nombre de tests) est toujours une égalité!

Pour résumer, nous pouvons dire que si nous prenons une décision, nous pouvons nous tromper et il vaut mieux éviter de se tromper souvent. En clair, la probabilité de dire une bêtise doit être connue et de préférence petite.

pUISSANCE D'UN TEST

Lorsque l'effet est concrètement important, on imagine bien qu'il faut moins d'observations pour le démontrer que lorsqu'il est petit... mais combien au juste? A-t-on les moyens, en termes de nombre de mesures, de démontrer ce que l'on cherche? Faut-il s'y prendre autrement et changer le dispositif de son observation/expérimentation?

Pour étudier plus en détails la notion de "puissance de test" que nous avons jusque là uniquement mentionnée, rappelons la figure suivante déjà rencontrée juste un peu plus haut:

Dans l'exemple particulier ci-dessus, nous allons donc rejeter l'hypothèse nulle si

ou si

. Imaginons que dans le cadre de l'hypothèse alternative, si nous avons mesuré 2.5, nous aurons comme puissance du test:

Donc le test est relativement puissant (dans la pratique, nous considérons un test comme étant puissant si sa valeur est au-delà de 80%). Ainsi, nous remarquons que la puissance

(a posteriori!) est d'autant plus grande que la p-value sera petite (et respectivement la puissance sera à posteriori d'autant plus petite que la p-value sera grande). Donc la puissance a posteriori est en correspondance décroissante avec la p-value (dans la pratique il est cependant un peu absurde de faire ces calculs a posteriori).

PUISSANCE DU TEST Z À 1 ÉCHANTILLON

En toute généralité, dans le cas d'un test bilatéral, la relation précédente s'écrira donc:

C'est sous cette forme que nous retrouvons la puissance d'un test bilatéral de la moyenne (puissance Z à 1 échantillon):

Il va de soit que si la variance vraie n'est pas connue, il faut alors remplacer la loi Normale par la loi de Student tel que:

où nous voyons que si la puissance du test est imposée comme étant égale à 50%, ayant Z qui vaut alors 0 nous retombons (!)sur la relation de l'effectif de l'échantillon pour loi Normale démontrée bien plus haut:

Signalons aussi que nous retrouvons parfois dans la littérature la relation antéprécédente sous la forme suivante:

Évidemement nous pouvons fixer d'autres paramètres pour déterminer la valeur de la variable restante. Nous pourrions par exemple chercher la valeur de la puissance du test en imposant l'écart-type, la taille de l'échantillon et le niveau de confiance, etc.

Un lecteur nous a proposé une maniètre très élégante de retrouver le même résultat avec beaucoup moins de développements... Effectivement, il suffit de voir sur la figure précédente que nous avons:

Donc nous tirons immédiatement une relation équivalement aux deux précédentes (qui donne bien évidemment le même résultat numérique):

1. Nous connaissons le niveau du test, la taille d'échantillon et la taille d'effet (implicitement la différence) et nous cherchons à calculer la puissance. Ceci permet de voir si notre dispositif expérimental est bien calibré.

2. Nous connaissons la puissance voulue, le niveau du test et la taille d'effet à détecter. Nous cherchons alors à calculer la taille d'échantillon nécessaire pour monter un dispositif expérimental efficace.

3. Nous connaissons la puissance voulue, le niveau du test et la taille d'échantillon et nous cherchons à vérifier qu'elle taille d'effet nous pouvons espérer mettre en évidence.

Sauf exception, nous considèrerons qu'il est inutile de montrer un test si la puissance escomptée est inférieure à 80%. Cette puissance correspond à une probabilité de 80% de ne pas rejeter l'hypothèse nulle à tort, ou, ce qui revient au même de 20% d'erreur de type II.

Évidemment, il est possible de faire le même raisonnement (analytiquement quand c'est possible, sinon numériquement) avec absolument TOUS les tests d'hypothèses que nous avons vus jusqu'à maintenant. Donc au même titre qu'il y a un peu plus d'une centaine de tests d'hypothèses dans le domaine des statistiques comme nous l'avons déjà mentionné... il est évident que nous n'allons pas nous... amuser... à faire les mêmes développements pour tous ces tests mais seulement pour les grands classiques. Tant que nous avons des ordinateurs à notre disposition avec les algorithmes intégrés par des informaticiens/scientifiques, nous pouvons nous passer de refaire tous les développements qui n'apporteraient pas grand chose. Par ailleurs, la majorité des logiciels comportement des outils pour calculer la puissance de 5 à 10 tests le plus souvent.

puissance du test p À 1 ET 2 ÉCHANTILLONS

De même que l'intervalle de confiance de la loi Normale avec écart-type théorique connu (c'est-à-dire sur toute la population), nous pouvons déterminer le nombre d'individus (taille d'échantillon) si nous souhaitons imposer une puissance au test de la proportion à 1 échantillon étudié plus haut. Pour cela, nous utilisons la même technique que pour la puissance du test Z. Nous écrivons alors dans un premier temps:

Pour la puissance du test de la différence de deux proportions (test de la proportion à deux échantillons) dans l'objectif de déterminer la taille de l'échantillon nous sommes obligés de poser

. Dés lors, les développements obtenus lors de l'étude du test de la différence de deux proportions s'écrivent:

De la même manière que nous l'avons fait pour le test Z et le test p à 1 échantillon, nous avons:

Ce qui revient donc à supposer que la différence vraie des deux proportions est la moyenne (ce qui est discutable...).

Mais nous avons aussi (comme les échantillons sont indépendants de par la propriété de la variance):

ANALYSE DE LA VARIANCE (À UN FACTEUR)

L'objectif de l'analyse de la variance (contrairement à ce que son nom pourrait laisser penser) est une technique statistique permettant de comparer les moyennes de deux populations ou plus (très utilisé dans le pharma ou dans les labos de R&D ou de bancs d'essais). Cette méthode, néanmoins, doit son nom au fait qu'elle utilise des mesures de variance afin de déterminer le caractère statistiquement significatif, ou non, des différences de moyennes mesurées sur les populations.

Plus précisément, la vraie signification est de savoir si le fait que des moyennes d'échantillons sont (légèrement) différentes peut être attribué au hasard de l'échantillonnage ou provient du fait qu'un facteur de variabilité engendre réellement des échantillons significativement différents (si nous avons les valeurs de toute la population, nous n'avons rien à faire!). Pour plus d'informations au niveau du vocabulaire et la mise en application, l'ingénieur et le chercheur se reporteront à la norme ISO 3534-3:1999.

Pour l'analyse de la variance appelée "ANOVA à un facteur" (ANalysis Of VAriance) ou "ANAVAR à un facteur" (ANAlyse de la VARiance), ou encore "ANOVA à une voie" ou plus rigoureusement "ANOVA à un facteur fixe avec répétitions" ou encore "ANOVA à une variable catégorielle fixe avec répétition", nous allons d'abord rappeler, comme nous l'avons démontré, que la loi de Fisher-Snedecor est donnée par le rapport de deux variables aléatoires indépendantes qui suivent une loi du Khi-deux et divisée par leur degré de liberté tel que:

Considérons un échantillon aléatoire de taille n, disons

issu de la loi

et un échantillon aléatoire de taille m, disons

issu de la loi

Considérons les estimateurs du maximum de vraisemblance de l'écart-type de la loi Normale traditionnellement notés dans le domaine de l'analyse de la variance par:

Les statistiques ci-dessus sont celles que nous utiliserions pour estimer les variances si les moyennes théoriques

étaient connues. Donc nous pouvons utiliser un résultat démontré plus haut lors de notre étude des intervalles de confiance:

Comme les

sont indépendantes des

(hypothèse qui implique que la covariance est nulle, la réciproque n'étant pour rappel pas toujours vraie!), les variables:

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne théorique est connue. Puisque la fonction de Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors pour un intervalle de confiance donné le test de la manière suivante:

Dans le cas où les moyennes

sont inconnues, nous utilisons les estimateurs sans biais des variances traditionnellement notés dans le domaine de l'analyse de la variance par:

Pour estimer les variances théoriques, nous utilisons le résultat démontré plus haut:

sont indépendantes l'une de l'autre. Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne empirique est connue. Puisque la fonction de Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors pour un intervalle de confiance donné le "test de Fisher" de la manière suivante:

tout en se rappelant que son utilisation nécessite implicitement des contraintes de normalité des variables étudiées.

R. A. Fisher (1890-1962) est, comme Karl Pearson, l'un des principaux fondateurs de la théorie moderne de la statistique. Fisher étudia à Cambridge où il obtint en 1912 un diplôme en astronomie. C'est en étudiant la théorie de l'erreur dans les observations astronomiques que Fisher s'intéressa à la statistique. Fisher est l'inventeur de la branche de la statistique appelée l'analyse de la variance.

Au début du 20ème siècle, R. Fischer développe donc la méthodologie des plans d'expérience (cf. chapitre de Génie Industriel). Pour valider l'utilité d'un facteur, il met au point un test permettant d'assurer que des échantillons différents sont de natures différentes. Ce test est basé sur l'analyse de la variance (des échantillons), et nommé ANOVA (analyse normalisée de la variance).

Prenons k échantillons de n valeurs aléatoires chacun. Chacune des valeurs étant considérée comme une observation ou une mesure de quelque chose ou sur la base de quelque chose (un lieu différent, ou un objet différent... bref: un seul et unique facteur de variabilité entre les échantillons!). Nous aurons donc un nombre total de N d'observations (mesures) donné par:

si chacun des échantillons a un nombre identique de valeurs n (taille de l'échantillon) tel que

nous parlons alors de "plan équilibré" à k niveaux (ou k modalités).

Nous considérerons que chacun des k échantillons est issu (suit) d'une variable aléatoire suivant une loi Normale.

En termes de test, nous voulons tester si les moyennes des k échantillons de taille n sont égales sous l'hypothèse que leurs variances sont égales. Ce que nous écrivons sous forme d'hypothèse de la manière suivante:

Autrement dit: les échantillons sont représentatifs d'une même population (d'une même loi statistique). C'est-à-dire que les variations constatées entre les valeurs des différents échantillons sont dues essentiellement au hasard. Pour cela nous étudions la variabilité des résultats dans les échantillons et entre les échantillons. Il revient exactement au même de poser que (formulation qu'on retrouve dans certains articles ou ouvrages):

Nous noterons donc pour la suite i l'indice d'échantillon (de 1 à k) et j l'indice de l'observation (de 1 à n). Donc

sera la valeur de la j-ème observation de l'échantillon de données numéro i (nous avons choisi d'inverser la notation d'usage donc attention à ne pas vous tromper par la suite... nous sommes désolés... c'était une bêtise!).

Nous noterons par

la moyenne empirique/estimée (arithmétique) de l'échantillon i (souvent appelée "moyenne marginale"):

la moyenne empirique/estimée des N valeurs (soit la moyenne des

) donnée donc par:

En utilisant les propriétés de l'espérance et de la variance déjà démontrées plus haut nous savons que:

1. La "variance totale" comme étant intuitivement la variance estimée sans biais en considérant l'ensemble des N observations comme un seul échantillon:

2. La "variance entre échantillons" (c'est-à-dire entre les moyennes des échantillons) est aussi intuitivement l'estimateur de la variance des moyennes des échantillons:

où le terme au numérateur est appelé "somme des carrés des écarts entre échantillons".

Comme nous avons démontré que si toutes les variables sont identiquement distribuées (même variance) et indépendantes la variance des individus vaut n fois celle de la moyenne:

alors la "variance des observations" (variables aléatoires dans un échantillon) est donnée par:

Nous avons donc ci-dessus l'hypothèse de l'égalité des variances qui est exprimée sous forme mathématique pour les développements à suivre.

3. La "variance résiduelle" est l'effet des facteurs dits non contrôlés. C'est par définition la moyenne des variances des échantillons (en quelque sorte: l'erreur standard):

où le terme au numérateur est appelé "somme des carrés des écarts des résidus" ou encore plus souvent "erreur résiduelle".

Remarquons que si les échantillons n'ont pas la même taille (ce qui est rare dans la pratique), nous avons alors:

Indiquons que nous voyons souvent dans la littérature (nous réutiliserons un peu plus loin cette notation):

Avant d'aller plus loin, arrêtons-nous sur la variance résiduelle. Nous avons donc pour des échantillons qui ne sont pas de même taille:

Cette écriture est souvent appelée "variance groupée" ("pooled variance" en anglais).

Ouvrons maintenant une petite parenthèse... Prenons le cas particulier de deux échantillons seulement:

Supposons maintenant que nous souhaitions comparer avec un certain intervalle de confiance la moyenne de deux populations ayant une variance différente pour savoir si elles sont de natures différentes ou non.

Nous connaissons pour le moment deux tests pour vérifier les moyennes. Le test-Z et le test-T. Comme dans l'industrie il est rare que nous ayons le temps de prendre des grands échantillons, concentrons-nous sur le deuxième que nous avions démontré plus haut:

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

alors la soustraction (différencier) des moyennes donne (propriété de stabilité de la loi Normale):

Donc pour la différence de deux moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

Et maintenant l'idée est de prendre l'approximation (sous l'hypothèse que les variances sont égales):

Nous avons alors l'intervalle de confiance (en supposant que nous n'avons à notre connaissance qu'un estimateur de la variance) suivant en se rappelant que la soustraction ou la somme de deux variables aléatoires indépendantes implique que leurs variances s'additionnent toujours (et donc il en va de même pour les degrés de liberté de la loi de Student y relative comme nous l'avons démontré plus haut suite à la liaison directe avec la loi du khi-2):

Comme l'idée dans la pratique est souvent de tester l'égalité des moyennes théoriques (et donc que leur différence est nulle) à partir des estimateurs connus alors:

Dans la plupart des logiciels disponibles sur le marché, le résultat est uniquement donné à partir du fait que le

que nous avons est compris dans le

correspondant à l'intervalle de confiance donné rappelons-le par:

dans le cas de l'hypothèse homoscédastique (égalité des variances/homogénéité des variances).

Sinon, dans le cas plus général de l'hypothèse d'hétéroscédasticité (non égalité des variances), nous écrivons explicitement (nous reviendrons là-dessus lors de notre étude du test de Welch plus loin....):

Bref, fermons cette parenthèse et revenons à nos moutons... Nous en étions donc au tableau suivant:

Ainsi que l'erreur totale qui est la somme de l'erreur des moyennes (interclasses) et de l'erreur résiduelle (intra-classes) et ce que les échantillons soient de même taille ou non:

Comme implicitiement (indirectement) il s'agit de la variance, nous parlons alors de "décomposition de la variance".

Maintenant, sous l'hypothèse forte (qui va nous être indispensable un peu plus loin) que les variances vraies sont liées par la relation:

et donc que leurs estimateurs respectifs sont asymptotiquement égaux... ce qui dans la pratique n'est approximativement vrai que lorsque certaines conditions sont satisfaites (raison pour laquelle il faut absolument avant de faire une ANOVA exécuter un calcul de la puissance et de l'effectif d'une ANOVA!) nous avons:

ce qui découle immédiatement de la démonstration que nous avions faite lors de notre étude de l'inférence statistique avec la loi du Khi-deux où nous avions obtenu (pour rappel):

Nous allons utiliser le fait que (par le même raisonnement que pour la relation antéprécédente):

C'est maintenant qu'intervient la loi de Fisher dans l'hypothèse où les variances sont égales! Puisque:

Ce que nous souhaitons faire c'est voir s'il y a une différence entre la variance des moyennes (interclasses) et la variance résiduelle (intra-classes). Pour comparer deux variances lorsque les moyennes vraies sont inconnues nous avons vu que le mieux était d'utiliser le test de Fisher. Or, nous avons démontré dans notre étude de la loi de Fisher un peu plus haut que:

Comme il existe des dizaines de types différentes d'ANOVA il faut bien comprendre ce choix de la plus simple des ANOVA que nous sommes entrain d'étudier maintenant. Ainsi, si les moyennes sont les mêmes, l'hypothèse nulle est alors que ce rapport des variances est égal à l'unité (sous les conditions déjà susmentionnées bien plus haut). Si F vient à être trop grand à un seuil donné, nous rejetons alors l'hypothèse nulle d'égalité des moyennes (car in extenso les variances vont être fortemement différentes aussi). Donc ici il semble cohérent de comparer les variances entre groupes (numératieur) avec celle dans les groupes (numérateur) mais comme nous le verrons ce n'est pas toujours ce choix qui sera fait (particulièrement dans les ANOVA hiérarchisées).

Au vu de l'hypothèse de la première égalité de le relation ci-dessus (qui précède l'implication), nous comprenons en même temps aussi beaucoup mieux la très grande sensibilité des résultats de l'ANOVA à la non égalité des variances vraies!

où MSk est appelé "Mean Square for treatments" et MSE "Mean Square for Error". Ce rapport va donc nous donner la valeur de la variable aléatoire F (dont le support est pour rappel borné à zéro à gauche). Concernant le choix du test (unilatéral droite/gauche ou bilatéral), remarquons que si les moyennes sont vraiment égales, alors pour tout i:

Ce qui nous amène évidemment à immédiatement adopter un test unilatéral droite!

Sinon, en général l'interprétation de cette fraction est donc en gros la suivante: Il s'agit du rapport (normalisé au nombre de degrés de liberté) de la somme de l'erreur des moyennes (interclasses) et de l'erreur résiduelle (intra-classes) ou autrement dit le rapport de la variance interclasse par la variance résiduelle. Ce rapport suit donc une loi de Fisher à deux paramètres donnés par les degrés de liberté des classes respectives.

Tous les calculs que nous avons faits sont très souvent représentés dans les logiciels sous la forme d'une table standardisée dont voici la forme et le contenu (c'est ainsi que le présente Microsoft Excel 11.8346 ou Minitab 15.1.1 par exemple):

Source	Somme des carrés	ddl du	Moyenne des carrés	F	Valeur critique F_c
Inter-Classe		k-1
Intra-Classe		N-k=k(n-1)
Total		N-1=kn-1

ainsi, pour que l'hypothèse nulle ne soit pas rejetée, il faut que la valeur de:

soit plus petite ou égale au centile de la même loi F avec une probabilité cumulée correspondante à 1 soustrait de niveau de confiance

La valeurs choisie du F critique est un peu malheureuse à mon avis dans les tableaux d'ANOVA (mais bon une fois que l'on sait que c'est ainsi...). Il est peut-être plus aisé de comprendre cette valeur si nous l'introduisons ainsi (le test unilatéral à droite ressort pédagogiquement mieux à mon avis):

Donc la valeur critique de F correspond simplement et bêtement à la probabilité cumulée de la p-value.

Il faut cependant bien se rappeler que pour utiliser l'ANOVA, on doit donc supposer que les échantillons sont issus d'une même population (données appariées) et suivent une loi normale. Il est donc nécessaire de vérifier la normalité des distributions et l'homoscédasticité (test de Levene par exemple). Dans le cas contraire, il faut utiliser des variantes non paramétriques de l'analyse de variance (ANOVA de Kruskal-Wallis ou ANOVA de Friedman). Ces tests ne sont pas encore démontrés en détails à ce jour sur le site.

Remarques:

R1. À noter que dans la pratique, la variance inter-classe est très souvent nommée "variance inter-laboratoires" et la variance intra-classe est in extenso souvent nommée "variance intra-laboratoire".

R2. Il existe en ce début de 21ème siècle plus de 50 test ou procédures de comparaison de variances. L'opinion varie parmi les auteurs quant à leur pertinence et l'efficacité des tests d'homogénéité de variance (THV). Certains affirment que ces derniers sont indispensables à réaliser avant toute ANOVA, d'autres disent que ces tests sont de toute façon de piètre performance, l'ANOVA étant plus robuste aux écarts d'homoscédasticité que ce qui peut être détecté par les THV, particulièrement en cas de non-normalité. En fait, toutes ces questions se rapport au problème dit de Behrens-Fisher, qui est celui de la comparaison de moyennes sans supposer l'équivariance. Cependant parmis la cinquantaine de tests existants, plusieurs études comparatives ont permis de dégager les tests suivants: Test de Bartlett, Levene et Brown-Forsythe.

R3. Lorsque certains niveaux d'un facteur sont réunis en un seul pour être comparés à un niveau de référence les statisticiens parlent alors de création de "contrastes". Par exemple un niveau: "groupe témoin" est comparé à un niveau qui est la réunion de plusieurs niveaux qui sont initialement "groupe test 1", "groupe test 2" et "groupe test 3". Dans ce dernier cas nous avons affaire bien évidemment à une ANOVA désquilibrée.

ANALYSE DE LA VARIANCE (ANOVA À DEUX FACTEURS SANS RÉPÉTITION)

Nous allons voir maintenant le concept d'interaction qui est fondamental pour bien comprendre ce qu'il y a derrière l'ANOVA à deux facteurs (fixes) (ou "ANOVA à deux variables catégorielles fixes") sans et surtout avec répétition. Effectivement, ce n'est qu'avec l'ANOVA à deux facteurs avec répétition par construction mathématique - que l'on peut statistiquement (sous certaines hypothèses) étudier objectivement si deux ou plusieurs facteurs interagissent de manière significative ensemble.

Il nous faut donc, avant de passer à la partie mathématique pure, introduire quelques notions:

D1. Nous disons qu'il y a "absence d'interaction" quand la moyenne des réponses d'un facteur en fonction de ses niveaux varie de la même amplitude et avec le même signe que la moyenne des réponses d'un autre facteur en fonction de ses niveaux. Nous disons alors que les courbes de réponses dans le diagramme des interactions sont parallèles.

D2. Nous disons que deux facteurs sont "en interaction" quand la moyenne des réponses d'un facteur en fonction de ses niveaux ne varie pas de la même amplitude ou/et pas avec le même signe que la moyenne des réponses d'un autre facteur en fonction de ses niveaux. Nous disons alors que les courbes de réponses dans le diagramme des interactions ne sont pas parallèles.

Pour comprendre le concept, nous aurons recours à de petits exemples sans répétition qui permettront de se faire une idée qualitative du phénomène mais en aucun cas une approche scientifique de l'interaction.

À chaque fois nous visualiserons les situations au moyen de deux types de représentations: un graphique illustrant les effets principaux d'une part et un diagramme des interactions d'autre part.

Considérons le petit tableau suivant avec deux facteurs à deux niveaux ("variables explicatives") comportant donc 4 cellules ("variables d'intérêt"):

Nous voyons bien qu'aucun facteur n'a un effet principal sur quoi que ce soit. Ce qui est relativement intuitif étant donné le contenu de tableau précédent.

Le diagramme des interactions (appelé souvent "profileur" dans l'industrie) donne lui:

où nous pouvons constater que les facteurs n'interagissent pas entre eux (ou se neutralisent c'est selon...). Nous disons alors qu'il n'y a "(a priori) aucun effet ni aucune interaction (localement)". Au fait dans certaines expériences, l'absence d'interaction est une hypothèse très forte et donc souvent rare. Raison pour laquelle il faut faire attention aux mots choisis lors de l'interprétation des graphiques d'interaction (car ne pas passer par les calculs purs est délicat pour cette étape voire non scientifique!).

Il nous paraît clair que le Facteur 1 à travers la prise en compte de son niveau semble avoir une influence sur la réponse. Mais voyons les différentes représentations:

Figure: 7.18 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Ce graphique comporte 2 parties: celle de gauche analyse les effets du facteur 1 à travers ses 2 niveaux ; celle de droite en fait de même pour le facteur 2.

Nous y voyons 2 points reliés par un segment de droite. Ici le premier point, celui pour le niveau 1, est situé à l'ordonnée 2 alors que le deuxième point, celui pour le niveau 2, est situé à l'ordonnée 4. Rappelons-nous maintenant que chaque point représente une moyenne. Ainsi l'ordonnée du premier point est bien située à la moyenne de (2 + 2) / 2 = 2.

Ceci étant dit et en espérant que cela a aidé à une meilleure compréhension, revenons à nos moutons…

Il apparaît assez clairement dans le graphique du dessus que seul le niveau du Facteur 1 influence la réponse, alors que le Facteur 2 n'influence en rien la réponse. Nous disons alors qu'il y a effet principal (localement) du Facteur1.

Sur le diagramme des interactions, nous avons la même information, mais sous une forme différente. Nous voyons que quel que soit le niveau du Facteur 2, les réponses sont horizontales et donc que celui-ci n'influence en rien les résultats. Nous sommes alors dans une situation où "(a priori) l'effet principal est (localement) le Facteur 1 et en absence d'interactions entre les facteurs".

Nous pouvons cette fois observer que le Facteur 2 a une influence mais pas le Facteur 1. Mais voyons aussi cela avec nos 2 types de représentations:

Figure: 7.19 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique que le Facteur 1 n'a aucune influence. Sur le diagramme du dessous c'est moins évident mais la superposition des deux droites montre que le Facteur 1 n'a pas d'influence. Nous disons alors qu'il y a "(a priori) effet principal (localement) du Facteur 2 et absence d'interactions entre les facteurs".

Nous voyons que les deux facteurs ont une influence sur la réponse. Ce que montrent bien les deux représentations ci-dessous:

Figure: 7.20 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique du dessus que le Facteur 1 a une influence sur la réponse et qu'il en est de même du Facteur 2 (et en plus de la même amplitude quel que soit le sens!). Sur le graphique du dessous c'est moins évident mais la même conclusion est valable. Nous disons alors que "(a priori) les deux facteurs sont (localement) significatifs et sans interactions".

qui sous cette forme n'est pas trivial à interpréter. Mais avec les représentations nous avons tout de suite des informations plus pertinentes:

Figure: 7.21 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique ci-dessus qu'aucun des facteurs n'a d'influence sur la réponse a priori (même graphique qu'au tout début avec la même moyenne). Le diagramme du dessous nous donne une information complémentaire par contre (!!!): Les facteurs ont une influence croisée et comme cette influence croisée est de même amplitude, les effets s'annulent. Nous disons alors que les "deux facteurs sont (localement) en interaction F1*F2".

Figure: 7.22 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous observons bien sur le graphique du dessus que le Facteur 1 semble avoir une influence et que le Facteur 2 non (en moyenne!). Le diagramme des interactions du dessous nous donne, lui aussi, encore une fois, une information complémentaire (!!!): C'est que les facteurs sont en interaction. Nous disons alors que nous avons "(a priori) deux facteurs (localement) en interaction F1*F2 où l'influence du Facteur 1 est significative".

Nous voyons que les deux facteurs ont une influence sur la réponse. Ce que montrent bien les deux représentations ci-dessous:

Figure: 7.23 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous disons ici que nous avons "(a priori) les deux facteurs (localement) en interaction F1*F2 où l'influence du Facteur 2 est significative".

Figure: 7.24 - Graphique des effets principaux et diagramme des interactions avec Minitab 15

Nous disons ici que nous avons "(a priori) les deux facteurs (localement) en interaction F1*F2 où l'influence des deux facteurs est significative".

Nous avons vu précédemment comment effectuer une analyse de la variance à un facteur. Pour rappel, cela consiste donc à faire un test d'égalité des espérances pour k échantillons indépendants de n variables aléatoires chacun (dans le cas où tous les échantillons ont donc le même nombre de mesures). Chaque échantillon étant considéré comme une expérience sur un sujet différent ou identique considéré alors comme un facteur variable indépendant!

Cependant il arrive dans la réalité que pour chaque échantillon on fasse varier un deuxième paramètre, considéré alors comme un deuxième facteur variable. Nous parlons alors bien évidemment d'analyse de la variance à deux facteurs. De plus, nous allons considérer dans un premier temps pour simplifier les calculs que les variables aléatoires sont indépendantes! Donc un facteur n'a pas d'influence sur l'autre!!! En d'autres, termes il n'y a pas d'interaction entre les facteurs. Nous parlons alors d'une "ANOVA à deux facteurs sans interactions".

Afin de déterminer la formulation du test à effectuer, rappelons que pour l'analyse de la variance à un facteur, nous avions décomposé la variance totale en la somme de la variance des moyennes (interclasses) et de la variance résiduelle (intra-classes) telle que:

Pour l'ANOVA à deux facteurs nous partirons du tableau suivant ("Éch." est l'abréviation de "Échantillon"):

	Facteur A
Facteur B	Éch.1	Éch.2	Éch....j	Éch.r
Éch. 1			...		Moyenne:
Éch.2			...		Moyenne:
Éch. i	...	...		...	Moyenne:
Éch. k			...		Moyenne:
	Moyenne:	Moyenne:	Moyenne:	Moyenne:

Figure: 7.25 - Structure typique dite "croisée" d'une analyse de la variance à 2 facteurs sans répétition

pour lequel dans un laboratoire, le facteur maintenu fixe pendant qu'on fera varier l'autre sera appelé le "facteur bloc" et l'autre sera appelé le "facteur de traitement" et dans la pratique on fera en sorte que ce dernier ne soit pas effectué toujours dans le même ordre afin d'éliminer des éventuels effets d'inertie lors du passage d'un traitement à l'autre (les américains désignent les ANOVA à deux facteurs contrôlés sans interactions sous les termes: "randomized block design" (GRBD)).

Pour la suite, toute l'astuce consiste à décomposer la variance totale en comparant l'espérance des lignes (observations) indexées cette fois-ci avec

et des colonnes (échantillons) indexées avec

par rapport à la moyenne totale telle que:

où

sont bien évidemment associés aux effets principaux (comparaison des moyennes marginales avec la moyenne totale).

Donc en comparaison à l'ANOVA à un facteur nous avons un terme supplémentaire pour la variance totale.

Dans l'ordre il est évident que la première somme des écarts par rapport au premier facteur colonne:

aura au même titre que l'ANOVA à un facteur

degrés de liberté. C'est-à-dire que sous les mêmes hypothèses que l'ANOVA à un facteur:

est nouvelle mais cependant on démontre de manière parfaitement identique au premier qu'elle aura

degrés de liberté. C'est-à-dire que sous les mêmes hypothèses que l'ANOVA à un facteur:

Pour la troisième somme qui suit obligatoirement aussi une loi du Khi-deux (étant donné que la variance totale suit une loi du Khi-deux et que les deux premiers termes de la somme aussi!):

c'est un peu plus délicat... mais il y a une astuce à la sauce physicienne...! Nous savons de par notre étude de l'ANOVA à un facteur que la somme des degrés de liberté de chaque terme doit être égale au nombre total de degrés de libertés. En d'autres termes, nous devons avoir pour l'ANOVA à deux facteurs:

Enfin, le reste est exactement le même que pour l'ANOVA à un facteur simplement que nous avons deux tests à effecteur cette fois-ci qui sont:

Tous les calculs que nous avons faits précédemment sont très souvent représentés dans les logiciels sous la forme d'une table standardisée dont voici la forme et le contenu (c'est ainsi que le présente Microsoft Excel 11.8346 ou Minitab15.1.1 par exemple):

et la condition d'acception de l'hypothèse d'égalité des moyennes pour chaque facteur est la même que pour l'ANOVA à un facteur (voir le serveur d'exercice pour un exemple pratique et détaillé avec Microsoft Excel 11.8346).

Nous avons donc deux tests de Fisher permettant chacun de savoir si le facteur A (respectivement B) ont une influence significative ou pas sur les mesures.

Évidemment, dans les développements ci-dessus, les facteurs A et B sont interchangeables dans les développements par symétrie!

ANALYSE DE LA VARIANCE À DEUX FACTEURS À MESURES RÉPÉTÉES

Jusqu'à présent nous avons examiné des ANOVA sur des expériences à un ou deux facteurs fixes (autrement dit: une ou deux variables catégorielles). Dans le cas à deux facteurs, nous avons considéré que pour chaque combinaison de facteurs nous n'avions qu'une seule mesure (cellule). Or, il peut arriver (et c'est préférable) que nous ayons plusieurs mesures pour une combinaison!

Nous qualifions ce type d'étude de "plan expérimental à mesures répétées" et les résultats seront traités avec une analyse de la variance à deux facteurs à mesures répétées et avec interactions! Il s'agit d'un outil extrêmement important puisqu'il permet de valider des études menées par plusieurs laboratoires (ou employés) indépendants et il est également associé à de nombreux autres outils statistiques comme celui de l'étude de la reproductibilité et de la répétabilité (Étude R&R) pour ne citer que le plus connu dans le domaine industriel.

Il faut comprendre qu'il est obligatoire dans le domaine de la statistique d'associer les interactions entre facteurs systématiquement lorsque nous avons affaire à une expérience à mesures répétées. Ceci pour la simple raison que le terme mathématique d'interaction n'apparaît que dans cette situation.

Ainsi, il peut être intuitif (avant même de le démontrer) qu'une ANOVA à deux facteurs (fixes) à mesures répétées (les américains désignent les ANOVA à deux facteurs contrôlés avec interactions sour les termes: "generalized randomized block design" (GRBD)) contient une interaction double, et deux effets principaux. Une ANOVA à trois facteurs (fixes) et à mesures répétées aura in extenso une interaction triple, trois interactions doubles et 3 effets principaux. Et ainsi de suite...

Avant de commencer, nous allons considérer le tableau de mesures suivant où l'abréviation "Éch." fait référence au mot "échantillon":

	Facteur A
Facteur B	Éch. 1	Éch. 2	Éch ...j	Éch. r	Moyenne
Éch.1			...
Réplication 2			...
Réplication m	...	...	...	...
Réplication n			...
Moyenne Éch. 1			...
Éch.2			...
Réplication 2			...
Réplication m	...	...	...	...
Réplication n			...
Moyenne Éch. 2			...
Éch.i	...	...		...
Réplication 2	...	...	...	...
Réplication m	...	...	...	...
Réplication n	...	...
Moyenne Éch. i	...	...		...
Éch.k			...
Réplication 2			...
Réplication m	...	...	...	...
Réplication n			...
Moyenne Éch. k			...
Moyenne

Figure: 7.26 - Structure typique dite "croisée" d'une analyse de la variance à 2 facteurs avec répétition

Et rappelons que pour l'ANOVA à deux facteurs sans réplications (et donc sans interactions), toute l'astuce avait consisté à décomposer la variance totale en comparant la moyenne des lignes indexées avec

et des colonnes indexées avec

par rapport à la moyenne totale.

L'idée va maintenant être à peu près la même à la différence que nous allons comparer l'espérance des lignes indexées avec

et des colonnes indexées avec

non seulement par rapport à la moyenne totale mais aussi à celle de chaque ligne et de chaque colonne.

Pour cela nous repartons de ce que nous avions obtenu pour l'ANOVA à deux facteurs sans réplication:

Il est évident qu'avec cette écriture l'ANOVA à deux facteurs sans réplication deviendrait:

Mais dans le cas présent, il nous faut rajouter une sommation pour les réplications et adapter la notation pour les mesures. Donc, sans refaire tous les développements (c'est un peu culotté mais bon...), nous obtenons déjà directement:

où dans l'ordre, m est la réplication de l'échantillon i du facteur A et de l'échantillon j du facteur B.

Il vient alors bien évidemment les variances interclasses pour les facteurs A et B qui sont immédiates:

où

sont bien évidemment encore une fois associées aux effets principaux (comparaisons des moyennes marginales avec la moyenne totale).

Maintenant, nous allons jouer un peu en introduisant sous la somme, en plus et en moins, dans le dernier terme:

Bien entendu, nous reconnaissons assez vite la variance intra-classes (appelée aussi souvent "erreur résiduelle" ou simplement dans le cas particulier de l'ANOVA à deux facteurs avec répétition "erreur de répétabilité"):

et le terme que nous pouvons interpréter (par comparaison avec l'ANOVA à deux facteurs sans répétitions) comme étant la variance d'interaction:

Mais si notre hypothèse est vérifiée (c'est-à-dire que l'ANOVA est balancée), le terme:

Et donc la sommation sur tous les i et j sera aussi nulle par extension. Ceux qui ont un doute quant à l'annulation des deux termes du développement ci-dessus, pourront peut-être se rassurer en faisant une application numérique.

où pour rappel, n est donc le nombre de réplications, r le nombre d'échantillons du facteur A et k le nombre d'échantillons du facteur B (ces deux derniers paramètres sont souvent confondus par ceux qui font les calculs à la main). Résultat qui est parfois noté sous la forme suivante dans la littérature:

Donc en comparaison à l'ANOVA à deux facteurs sans réplications, nous avons un terme supplémentaire pour la variance totale.

Dans l'ordre il est évident que la première somme des écarts par rapport au premier facteur colonne:

aura au même titre que l'ANOVA à un facteur et l'ANOVA à deux facteurs sans répétition

degrés de liberté. C'est-à-dire que sous les mêmes hypothèses que ces deux ANOVA, nous avons:

Grâce au raisonnement effectué à l'aide de l'ANOVA à deux facteurs sans répétition, nous savons que pour le terme d'interaction:

Pour ce faire, nous procédons de la même manière qu'avec l'ANOVA à deux facteurs sans répétitions. Nous savons de par notre étude de l'ANOVA à un facteur que la somme des degrés de liberté de chaque terme doit être égale au nombre total de degrés de liberté. En d'autres termes, nous devons avoir pour l'ANOVA à deux facteurs:

Enfin, le reste est exactement le même que pour l'ANOVA à deux facteurs sans réplication simplement que nous avons trois tests à effecteur cette fois-ci qui sont:

Somme des carrés	ddl	Moyenne des carrés	F	Valeur critique F
(bloques)	r-1
(traitements)	k-1
(interactions)	(k-1)(r-1)
	N-kr
	N-1

Tableau: 7.12 - Terminologie et paramètres traditionnels d'un Tableau ANOVA (TAV) à deux facteurs avec répétition

Nous avons donc trois tests de Fisher permettant chacun de savoir si le facteur A (respectivement B ou l'interaction AB) ont une influence significative ou pas sur les mesures.

Évidemment, dans les développements ci-dessus, les facteurs A et B sont interchangeables dans les développements par symétrie!

ANOVA MULTIFACTORIELLE À MESURES RÉPÉTÉES

L'ANOVA multifactorielle à mesures répétées ou appelée aussi "ANOVA multifactorielle à variables catégorielles et mesures répétées" (et très rarement "ANOVA équilibrée") est simplement le nom sous lequel les spécialistes désignent les ANOVA suivantes:

Évidemment, les ANOVA à un et deux facteurs (fixes) font aussi partie de la famille de l'ANOVA multifactorielle mais elles sont rarement signalées en tant que tel dans les logiciels de statistiques et sont souvent disponibles de façon explicite dans les menus de ces mêmes logiciels (car ce sont les deux plus utilisées dans les écoles). Il faut savoir aussi que la majorité des logiciels de statistiques gèrent des ANOVA multifactorielles jusqu'à 15 facteurs fixes (variables catégorielles) à condition que le plan soit équilibré (c'est à dire que pour chaque niveau de chaque facteur, il y ait un nombre identique de mesures). Un tableur (comme Microsoft Excel) gère le plus souvent les ANOVA jusqu'à un maximum deux facteurs (fixes).

Bon maintenant le lecteur risque d'être déçu (bon je suis aussi déçu de n'avoir qu'une seule vie...) car franchement je ne souhaite pas refaire les développements vus plus haut pour les ANOVA à un facteur et deux facteurs (fixes) pour 3, 4 et ce jusqu'à 15 facteurs car cela prendrait plus de 100 pages A4 sous une forme pédagogique et claire et en plus c'est basé toujours sur la même mécanique de développement (la théorie généralisée de l'ANOVA bien qu'étant beaucoup plus courte, elle est à mon goût indigeste).

TEST DE C DE COCHRAN

Le test C de Cochran a pour objet la vérification de l'homogénéité des variances concernant plusieurs populations. Il s'agit d'un des tests préalables ou postérieurs (post hoc) utiles avant de faire une ANOVA balancée (équilibrée) et qui est recommandé par la norme ISO 5725 (de même que le test de Tukey que nous verrons beaucoup plus loin).

Bien que l'idée du test de Cochran soit empirique, elle est néanmoins intuitive comme le sont les définitions des tests de Grubbs et Dixon. Pourquoi alors présentons-nous sur ce site en détails le test C de Cochran alors que nous avons mentionné que nous ne le ferions pas pour le test de Grubbs et Dixon? La raison en fait est simple: le test de Grubbs et Dixon nécessitent des simulations par Monte-Carlo pour déterminer les valeurs critiques de rejet ou d'acceptation de l'hypothèse nulle, alors que la valeur critique du test C de Cochran peut être obtenue relativement facilement analytiquement.

où les

sont les variances non biaisées des différentes sources de données au nombre de N composées chacune de n échantillons et l'hypothèse nulle est intuitivement l'égalité des variances contre l'hypothèse alternative qui est qu'une des variances est trop grande (donc mauvaise) et rejetée parce que aberrante.

La norme ISO 5725 recommande de réitérer ce test jusqu'à ce qu'il n'y ait plus aucune variance aberrante (donc trop grande ET éloignée des autres variances).

Pour déterminer la valeur critique, inversons la définition du test C de Cochran et faisons quelques manipulations algébriques élémentaires:

Nous remarquons qu'à peu de choses près, le deuxième terme de la dernière égalité ressemble presqu'à une loi de Fisher. Comme la loi de Fisher n'est pas stable par l'addition, il faudrait que nous trouvions une manière de transformer le terme:

en une variance unique. L'idée est alors relativement simple mais encore fallait-il y penser... Nous savons que les

sont des variances non biaisés avec un facteur

. Donc si les N échantillons (niveaux) sont tous indépendants, la variance globale est alors par stabilité de la loi Normale et en reprenant les notations de l'ANOVA:

Nous reconnaissons donc dans la dernière égalité le rapport de deux variances au carré. Nous avons alors identiquement à ce que nous avons démontré lors de notre étude de l'ANOVA à un facteur sans réplications:

qui est dès lors indépendant de j et donc le test unilatéral gauche (puisque par définition le rapport du test de Cochran doit être le plus petit possible) C de Cochran aura pour valeur critique:

Il y a cependant un petit couac avec la relation précédente. Effectivement, nous savons que nous devons itérer le test plusieurs fois. Mais bien évidemment, plus nous effectuons de test sur un échantillon de données, plus grande est la probabilité de rejeter l'hypothèse nulle à un moment ou à un autre. Ce problème est appelé "inflation du niveau de confiance" et dans la vie réelle nous connaissons bien son application: plus on attend, plus la probabilité qu'un événement rare ait lieu est élevée. Bien évidemment, il faut alors réduire la valeur du seuil mais dès lors cela augmente la difficulté de détecter les vrais effets. Dès lors, la démarche est la suivante.

Si nous considérons un test avec un niveau de signification

(correspondant donc à la probabilité cumulée de ne pas faire une erreur de type I) et que nous réitérons celui-ci de manière indépendante une deuxième fois. Alors, si les tests sont indépendants, de par l'axiome des probabilités, la probabilité de ne pas faire une erreur du type I sera le produit des probabilités:

et ainsi de suite pour n tests. Nous remarquons alors très vite que la probabilité cumulée de ne pas faire une erreur de type I décroit très vite. Par exemple, pour 10 tests réitérés indépendants avec un niveau de 5%, nous avons alors:

ce qui est catastrophique! Dès lors, si nous voulons un niveau de confiance sur tests réitérés d'une certaine valeur que nous noterons

, il paraît évident qu'il faut résoudre l'équation suivante:

et avec un développement de Taylor au deuxième ordre il vient (cf. chapitre Suites Et Séries):

que nous appelons "approximation de Bonferroni", parfois "approximation de Boole" ou encore "approximation de Dunn". Donc au final, nous avons:

Que nous pouvons calculer avec la versin anglaise de Microsoft Excel 14.0.6123 à l'aide de la formule:

TEST D'AJUSTEMENT (D'ADÉQUATION) DU Khi-deux

Nous allons étudier ici notre premier test d'ajustement non-paramétrique, un des plus connus certainement et des plus simples (qui s'applique seulement à des données non censurées).

Supposons qu'une variable statistique suive une loi de probabilité P. Si nous tirons un échantillon dans la population correspondant à cette loi, la distribution observée, appelée "distribution d'échantillonnage", s'écartera toujours plus ou moins de la distribution théorique, compte tenu des fluctuations d'échantillonnage.

Généralement, nous ne connaissons ni la forme de la loi P, ni la valeur de ses paramètres. C'est la nature du phénomène étudié et l'analyse de la distribution observée qui permettent de choisir une loi susceptible de convenir et d'en estimer les paramètres.

Les écarts entre la loi théorique et la distribution observée peuvent être attribués soit aux fluctuations d'échantillonnage, soit au fait que le phénomène ne suit pas, en réalité, la loi supposée.

En gros, si les écarts sont suffisamment faibles, nous admettrons qu'ils sont imputables aux fluctuations aléatoires et nous accepterons la loi retenue ; au contraire, s'ils sont trop élevés, nous en conclurons qu'ils ne peuvent pas être expliqués par les seules fluctuations et que le phénomène ne suit pas la loi retenue.

1. Définir la mesure de la distance entre distribution empirique et distribution théorique résultant de la loi retenue.

2. Déterminer la loi de probabilité suivie par cette variable aléatoire donnant la distance.

3. Énoncer une règle de décision permettant de dire, d'après la distribution observée, si la loi retenue est acceptable ou non.

Premièrement, nous aurons pour cela besoin du théorème central limite et deuxièmement rappelons que lors de la construction de la loi Normale, nous avons montré que la variable:

suivait une loi Normale centrée réduite lorsque n tendait vers l'infini (condition de Laplace) et que la probabilité p était très petite.

En pratique, l'approximation est tout à fait acceptable... dans certaines entreprises... lorsque

soit (c'était un des termes qui devait tendre vers zéro quand nous avions fait la démonstration):

Par exemple dans les deux figures ci-dessous où nous avons représenté les lois binomiales approchées par les lois Normales associées, nous avons à gauche

et à droite

Figure: 7.27 - Approche de fonctions binomiales par fonctions Normales associées

Rappelons enfin, que nous avons démontré que la somme des carrés de n variables aléatoires normales centrées réduites linéairement indépendantes suit une loi du Khi-deux à n degrés de liberté noté

Considérons maintenant une variable aléatoire X suivant une fonction de distribution théorique (continue ou discrète) P et tirons un échantillon de taille n dans la population correspondant à cette loi P.

Les n observations seront réparties suivant k modalités (classes de valeurs) C₁, C₂, ..., C_k, dont les probabilités p₁, p₂, ..., p_k sont déterminées par la fonction de distribution P (se référer à l'exemple de la droite de Henry).

Pour chaque modalité C_i, l'effectif empirique est lui une variable aléatoire k_i de loi binomiale:

Cet effectif k_i correspond en effet au nombre de succès "résultat égal à la modalité C_i" de probabilité p_i, obtenus au cours des n tirages d'un lot expérimental (et non dans la population de la loi théorique comme avant).

car p_i est relativement petite, ce qui donne

qui est assez proche de 1. Son écart-type est donc:

Dans ces conditions, pourvu que la modalité C_i ait un effectif théorique np_i au moins égal à 5, l'écart réduit:

entre effectif empirique et effectif théorique peut être approximativement considéré comme une variable normale centrée réduite comme nous l'avons vu plus haut.

Si nous prenons le carré c'est parce si nous ne faisions qu'une somme simple certains termes s'annuleraient par effets opposés et masqueraient donc les différences, si nous prenions la somme des valeurs absolue la table statistique de D serait difficile à construire et le test peu robuste à cause du faible écart des distances. Le carré permet donc non seulement d'avoir une table statistique pour D qui est simple puisque basées sur une loi à un seul paramètre comme nous allons le voir et que cela augmente de façon suffisante la robustesse du test (de par le carré de la différence).

Cette variable D, somme des carrés des variables E_i, nous donne une mesure de ce que nous pourrions appeler une "distance" ou "différence" ou "écart" entre distribution empirique et distribution théorique. Notons bien cependant qu'il ne s'agit pas d'une distance au sens mathématique habituel (topologique).

D est donc la somme des carrés de N variables aléatoires normales centrées réduites liées par la seule relation linéaire:

où n est la taille de l'échantillon. Donc D suit une loi Khi-deux mais à N-1 degrés de liberté, donc un degré de moins à cause de l'unique relation linéaire qui les lie! Effectivement, rappelons que le degré de liberté indique le nombre de variables indépendantes dans la somme et non pas juste le nombre de termes sommés.

Nous appelons ce test un "test non-paramétrique du Khi-deux" ou "test du Khi-deux de Pearson" ou encore "test d'ajustement du Khi-deux" ou encore "test de Karl Pearson" ou encore "test d'adéquation de l'ajustement du Khi-deux"...

Ensuite, l'habitude est de déterminer la valeur de la loi du Khi-deux à N-1 degrés de liberté ayant 5% de probabilité d'être dépassée. Ainsi, dans l'hypothèse où le phénomène étudié suit la loi théorique P, il y a donc 95% de probabilité cumulée que la variable D prenne une valeur inférieure à celle donnée par la loi du Khi-deux.

Si la valeur de la loi du Khi-deux obtenue à partir de l'échantillon prélevé est inférieure à celle correspondant aux 95% de probabilité cumulée, nous acceptons l'hypothèse selon laquelle le phénomène suit la loi P.

Ce test d'ajustement souffre cependant d'un gros défaut: il nécessite de regrouper les mesures dans des classes C_i et dans la pratique il n'existe pas de théorème absolu (du moins à ma connaissance) pour choisir le nombre de classes (et in extenso leur largeur). C'est cette raison qui fait que le test d'ajustement (conformité) du Khi-deux est resérvé pour des distributions discrètes où le problème du choix des classes en se pose pas.

Il nous faudra cependant créer des tests d'ajustement qui ne nécessitent pas l'utilisation de classes et nous allons voir de suite les outils ad hoc pour cela (test de Kolmogorov-Smirnov ou Anderson-Darling pour ne citer qu'eux).

Supposons que les naissances à un hôpital, pour une certaine période de temps, se répartissent comme suit:

Nous remarquons qu'il y a eu au total 728 naissances. Nous nous posons alors la question suivant: Combien devrait il y avoir de naissances, en théorie, à chaque jour s'il n'y a pas de différence entre les jours? Ceci représente l'hypothèse nulle. En fait l'hypothèse nulle indique que les différences entre les fréquences observées et les fréquences théoriques sont relativement petites. Nous prenons donc pour acquis que si aucune différence n'existe il devrait y avoir le même nombre de naissances à chaque jour. Puisqu'il y a au total 728 naissances pour les 7 jours en théorie il devrait y avoir 728/7=104 naissances à chaque jour. Nous avons donc maintenant le tableau suivant:

Jour	L	M	M	J	V	S	D	Total
Observations	120	130	125	128	80	70	75	728
Théorique	104	104	104	104	104	104	104	728

Tableau: 7.14 - Comparaison par rapport à l'attendu

Le total des fréquences observées est égal au total des fréquences théoriques. Il s'agit donc d'examiner la différence entre les fréquences observées et les fréquences théoriques (supposées suivre une loi uniforme) en suivant la relation du Khi-deux. En d'autres termes, nous allons faire un test d'ajustement entre une fonction de distribution empirique (observée) et la fonction de distribution uniforme. Nous avons alors:

est donc de 43.49. Comme tel ce chiffre signifie peu de chose. Il faut interpréter ce résultat grâce à l'aide de la table des valeurs critiques du

. On comprend qu'il est très peu probable que la fréquence observée et la fréquence théorique soit identique. Nous acceptons qu'il puisse y avoir une certaine différence (nous rejetons donc l'hypothèse).

Il ne faut donc pas oublier que ce test s'applique uniquement à des données non censurées, c'est-à-dire pour lequel les intervalles sont tous bornés et fermés.

TEST D'AJUSTEMENT DE KOLMOGOROV-SMIRNOV

En statistiques, le test de Kolmogorov-Smirnov est un test d'hypothèse d'ajusteent basé sur une distance empirique utilisé pour déterminer si une distribution d'échantillonnage suit bien une loi donnée connue par sa fonction de répartition continue (ou pour comparer deux échantillons et vérifier s'ils sont dépendants ou non car semblables ou dissemblables). Ce test, au même titre que celui d'ajustement du khi-2, n'est valable que pour des données non censurées (du moins pas sans correction obtenue par simulations numériques).

Pour introduire ce test, nous avons choisi l'approche de Lilliefors qui permet d'éviter des calculs complexes. Par ailleurs, les logiciels qui proposent le "test de Lilliefors" ne proposent pas le test Kolmogorov-Smirnov puisque ce dernier n'est correct qu'asymtotiquement (ce qui est le cas de Tangra 4.14).

Imaginez donc que nous souhaiterions construire un test non paramétrique d'ajustement qui marche aussi bien pour les lois discrètes que continues et sans souffrir du même problème que le test d'ajustement du Khi-deux (regroupement en classes).

Pour construire ce test, nous allons partir de la fonction de répartition empirique déjà définie au début de ce chapitre et donnée pour rappel par

Notons maintenant

, la loi vraie supposée dont l'expression analytique est connue avec laquelle nous souhaiterions comparer

et construisons la distance:

Le problème avec ce choix de distance c'est... quel x faut-il alors choisir pour faire un test? Eh bien pour répondre il est simple de constater qu'il serait stupide de prendre le x pour lequel cette distance est minimale, car avoir un qui peut valoir-zéro n'apporte pas grand chose... Dès lors, on se reporte plutôt vers le plus grand écart en valeur absolue. Ce qui nous amène à redéfinir la distance

ainsi:

où

est appelée "distribution empirique de Kolmogorov-Smirnov" (bon évidemment il faudrait prouver rigoureusement qu'il s'agit bien d'une distribution... mais pour l'instant c'est trop complexe au niveau du contenu du présent site, cependant cela peut se vérifier en faisant des simulations numériques). Avant d'aller plus loin relativement à la théorie, regardons un exemple pratique.

où

représente la fonction de répartition de la loi Normale centrée réduite.

x
	0	0.115	0.115
	0.2	0.115	0.085
	0.2	0.159	0.041
	0.4	0.159	0.241
	0.4	0.274	0.126
	0.6	0.274	0.326
	0.6	0.580	0.020
	0.8	0.580	0.220
	0.8	0.788	0.012
	1	0.788	0.212

Souvent associé au graphique comparant les fonctions de répartition empirique et théorique:

Figure: 7.28 - Représentation de l'approche du test d'ajustement de Kolmogorov-Smirnov

Nous voyons alors que l'écart maximal observé est 0 326. Nous la noterons pour la suite:

Le lecteur aura remarqué que le plus grand écart au-dessus de la courbe est mesuré par:

Mais que faire de cette valeur? À quoi la comparer? Eh bien l'idée est relativement simple et consiste à générer n valeurs (donc cinq dans le cas présent) issues de la loi de distribution F(x) de l'hypothèse nulle et de les comparer à elles-mêmes. Autrement dit, il s'agit de faire une simulation de Monte-Carlo (cf. chapitre de Méthodes Numériques)

Ainsi, dans le cas présent, nous générons 5 valeurs de N(0,1), ce qui nous donne par exemple avec la version anglaise de Microsoft Excel 11.8346 (je préfère parfois donner en anglais sinon le nom des fonctions est trop long):

Nous obtenons ainsi 5 valeurs de Z (notation habituelle de la variable aléatoire d'une loi Normale centrée réduite) qui ordonnées seront par exemple:


0	0.077	0.077
0.2	0.077	0.123
0.2	0.533	0.333
0.4	0.533	0.133
0.4	0.564	0.164
0.6	0.564	0.036
0.6	0.616	0.016
0.8	0.616	0.184
0.8	0.902	0.102
1	0.902	0.098

Tableau: 7.15 - Tableau du test de Kolmogorov-Smirnov

Et nous avons donc l'écart maximal observé qui est de 0.333. Soit avec la version française de Microsoft Excel 14.0.6123:

avec les formules explicites (malheureusement trop longues dans la version française du logiciel):

avec la petite routine VBA correspondante vite fait mal faite qui va prendre le nombre d'itérations voulues dans la cellule K1 et va mettre la distribution empirique de Kolmogorov-Smirnov dans la colonne G de la feuille active:

Figure: 7.31 - Code VBA Microsoft Excel 14.0.6123 pour la simulation de Monte-Carlo

Nous réitérons donc la procédure un bon millier de fois et nous obtenons la fonction de répartition (obtenue simplement en faisant un graphique de type nuage de points dans Microsoft Excel 14.0.6123 de 2'000 simulations):

et en appliquant un test unilatéral avec un risque

nous obtenons pour le 95ème centile:

Le lecteur retrouvera la même valeur dans les tables de Kolmogorov-Smirnov disponibles dans de nombreux ouvrages. Quelques milliers de simulations suffisent donc pour retrouver les valeurs des tables!

Cependant, ... il faut tout de même se méfier avec seulement cinq valeurs, il est tout à fait probable que l'hypothèse nulle ne soit pas rejetée pour d'autres lois de répartition que la loi Normale.

Ainsi, comme le lecteur l'aura remarqué, pour chaque hypothèse nulle associée à une loi donnée, il faut tabuler la distribution empirique de Kolmogorov-Smirnov pour différentes valeurs de n et de

en utilisant des méthodes numériques. Dans la majorité des ouvrages on ne trouve qu'une seule table à l'aide d'un théorème puissant qui montre qu'en réalité, les valeurs critiques seront les mêmes.

Pour clore, signalons au lecteur qu'il trouvera la démonstration mathématique du test d'ajustement d'Anderson-Darling un peu plus bas.

TEST DE NORMALITÉ DE RYAN-JOINER

Considérons une variable aléatoire X dont nous connaissons la distribution d'échantillonnag et pour laquellenous souhaiterions vérifier la normalité ou pas. Et considérons une variable aléatoire ordonnée Y générée par une loi Normale centrée réduite. Pour comparer X et Y, nous allons centrer X et ordonner ses valeurs dans l'ordre croissant.

Pour une même taille d'échantillon, si les valeurs ordonnées de X et Y pris deux à deux suivent une même loi, la régression linéaire de l'un en fonction de l'autre doit donner un coefficient assez proche de 1. En prenant la définition du coefficient de corrélation au carré, il vient alors:

Il s'agit de l'approche de Ryan-Joiner (implémentée dans Minitab) du test de Shapiro-Wilk. Les résultats des deux tests sont très similaires. Les coefficients

peuvent être facilement obtenus à l'aide de n'importe quel tableur à notre époque en utilisant une simulation de Monte-Carlo (cf. chapitre de Méthodes Numériques). Si un lecteur le souhaite nous détaillerons comment obtenir les

avec Microsoft Excel pour un n donné.

Il convient de signaler que les logiciels de statistique donne la racine carrée de la dernière égalité ci-dessous comme étant le coefficient RJ de Ryan-Joiner.

Considérons les 10 mesures de la colonne A déjà triées dans l'ordre croissant:

Figure: 7.33 - Mesures ordonnées, rangs, coefficient de RJ et Z-score d'exemple

Les formules sont les suivantes (données en anglais car plus petites pour la capture d'écran):

Figure: 7.34 - Détails de la capture d'écran précédent avec la version anglophone de Microsoft Excel 14.0.6123

Et donc nous avons dans une feuille nommée Coeff_MonteCarlo des simulations de Monte-Carlo pour déterminer les 10 coefficients

notés traditionnellement dans le cas de 10 mesures dans les tables sous la forme suivante:

D'abord il faut créer 10 colonnes avec des générations de variables aléatoires normales centrées réduites sur à peu près 10'000 lignes avec la formule suivante (donnée en anglais):

Figure: 7.35 - Génération des variables aléatoires normales centrées réduites pour les coefficient de RJ

et ensuite il faut construire les ranges de toutes ces valeurs ligne par ligne tel que:

avec les formules suivantes (données seulement pour les 4 premiers i faute de place dans la capture d'écran):

Figure: 7.37 - Détails du tri pour la détermination des coefficients de RJ
avec la version anglophone de Microsoft Excel 14.0.6123

Pour finir, il n'y a plus qu'à calculer le coefficient de corrélation entre les colonnes C et D de la première capture d'écran:

Ce qui donne environ 0.963 (le carré de cette valeur étant très très proche du test de Shapiro-Wilk). Ensuite, pour savoir si on peut accepter ou rejeter l'hypothèse de normalité, il faudrait refaire la procédure avec en lieu et place mesures, des valeurs générées aussi aléatoires à partir d'une loi Normale et déterminer la valeur critique d'acceptation/rejet (normalement c'est très simple à faire mais on peut détailler sur demande).

TEST D'AJUSTEMENT d'anderson-darling

Il est surprenant qu'un test raisonnablement puissant (robuste) comme l'est le test de Kolmogorov-Smirnov puisse être conçu en ne s'appuyant que sur une unique observation et ce un seul point de la fonction de répartition candidate. Il semblerait, avec du recul, plus efficient de mesurer la différence entre les deux fonctions de répartition en comparant ces fonctions sur l'intégralité de leur domaine, c'est-à-dire de

Il existe une famille de tests dont les statistiques sont basées sur l'intégrale du carré de la différence (ces tests sont souvent considérés comme non paramétriques mais selon moi à tort et ce au même titre que le test de Kolmogorov-Smirnov est lui aussi considéré comme non paramétrique):

entre la fonction de répartition empirique et la fonction de répartition de référence. La plus simple de ces statistiques est:

qui est simplement la surface comprise entre la fonction de répartition empirique et la fonction de répartition de référence. Soit, en reprenant le graphique utilisé plus haut lors de notre étude du test d'ajustement de Kolmogorov-Smirnov:

Figure: 7.39 - Représentation de l'approche du test d'ajustement d'Anderson-Darling

Cependant, arbitrairement, nous pouvons choisir autre chose que la mesure x pour l'intégrale. Ainsi, un choix classique est de prendre la fonction de répartition théorique elle-même comme mesure de base de l'intégrale. Il vient ainsi:

La statistique résultant de cet ajout s'appelle la "statistique de Cramér-von Mises". Cependant elle souffre d'un gros défaut de robustesse lorsque des points de mesures se trouvent sur les queues de la distribution.

Il a alors été proposé la mesure suivante qui est un peu moins sensible aux points de mesures se trouvant sur les queues:

appelée "statistique d'Anderson-Darling" qui a été la plus utilisée dans la fin du 20ème siècle et reste dominante au début du 21ème aussi (du moins tant que l'échantillon est d'une taille acceptable!). Elle est par construction plus robuste que les statistiques de Cramér-von Mises et de Kolmogorov-Smirnov mais des études par simulations ont montré qu'elle était moins robuste que le test de Shapiro-Wilk ou Ryan-Joiner.

En se rappelant que la définition de la distribution empirique

lors de notre étude du test d'ajustement (adéquation) de Kolmogorov-Smirnov implique que:

Il faut à présent calculer ces intégrales. Nous cherchons donc la primitive d'une fonction du type:

ont été démontrées sous leur forme générale dans le chapitre de Calcul Différentiel Et Intégral et valent respectivement:

car au vu des valeurs que peut prendre u, il est alors inutile d'indiquer les valeurs absolues.

où un changement de variable évident (si jamais vous souhaitez les détails n'hésitez pas à demander) nous donne la primitive sans la constante:

Nous allons procéder maintenant à quelques manipulations algébrique astucieuses (mais simples) pour condenser l'écriture de cette dernière égalité.

D'abord, remarquons que nous pouvons récrire la première somme ainsi (le lecteur pourra vérifier en développement les deux sommes pour une petite valeur de n):

et le lecteur pourra vérifier que l'égalité ci-dessous pour la troisième somme est vérifiée:

Enfin, nous transformons la quatrième somme (puisque de toute façon lorsque j vaut n le terme de la somme est nul...):

Il s'agit d'un des formes du test d'Anderson-Darling et qui dans le cadre d'une loi Normale s'écrit par tradition sous la forme suivante:

Mais il existe une autre expression simplifiée très courante. Pour l'établir, nous repartons de l'expression:

où

représente la fonction de répartition de la loi Normale centrée réduite. Mettre en place le calcul de l'indice AD dans un logiciel comme la version française de Microsoft Excel 14.0.6123:

Figure: 7.41 - Formules Excel explicites du tableau principal de la figure précédente

Nous obtenons donc la même valeur de l'indicateur AD que les logiciels de statistiques qui permettent de choisir la loi à comparer (et donc les paramètres y relatifs). Cependant pour de très petits échantillons les logiciels de statistiques utilisent la correction suivante (qui nous été impossible de réobtenir par simulation...):

Ensuite pour calculer la p-value nous devons investiguer une curiosité... Effectivement si nous la déterminons en faisant une simulation de Monte-Carlo comme nous l'avons fait lors de notre démonstration du test de Kolmogorov-Smirnov en changeant d'abord le contenu de la colonne A en y mettant des valeurs dynamiques triées:

Figure: 7.44 - Formules génératrices d'une loi Normale pour l'application de Monte-Carlo

Le lecteur remarquera donc que cela revient finalement à comparer l'échantillon avec une distribution uniforme!!!

En ayant ensuite préparé les colonnes suivantes H, I qui contiendront les valeurs simulées reportées par le code VBA donné un peu plus loin et les colonnes L, M qui nous permettent d'avoir la répartition des valeurs de AD et AD* pour en calculer le centile:

Figure: 7.45 - Colonnes pour le reports du VBA et pour les différents centiles de AD/AD*

nous avons alors avec 10'000 simulations la répartition suivante des valeurs de AD et AD*:

Donc que ce soit pour AD ou AD* la p-value se situe dans notre cas particulier entre 60% et 75% ce qui correspond aux valeurs tabulées par Peter A. W. Lewis chez IBM (1961).

Ce qui est curieux et qu'il nous faut justement investiguer c'est que la grande majorité des logiciels utilisent les formules suivantes (R.B. D'Augostino et M.A. Stephens, Eds., 1986, Goodness-of-Fit Techniques, Marcel Dekker) permettant d'éviter les simulations de Monte-Carlo:

et dans notre cas, l'application de ces formules donnent une p-value d'environ 4%!!! Valeur que donnent effectivement les logiciels statistiques! Affaire à suivre pour trouver d'où vient cette énorme différence... Nous avons demandé au support technique d'un éditeur de progiciel statistique américain de nous expliquer la raison de la différence entre les valeurs tabulées Peter A.W. Lewis et celles R.B. D'Augostino et M.A. Stephens mais ils n'ont pas été capables de répondre. Nous avons également contacté M.A. Stephens lui-même pour qu'il nous communique comment il avait obtenu ces formules mais nous n'avons jamais eu de réponses...

Donc si quelqu'un trouve un jour la méthode et qu'il souhaite nous le communiquer...

Robustesse

Dans le domaine des statistiques inférentielles et tests d'hypothèses, la robustesse est un concept récurrent (les banques sont astreintes au stress testing/crash-test de leurs modèles de risque). Nous en avons par ailleurs déjà fait mention plus haut...

D1. Un test est dit "test robuste" s'il reste valable alors que les hypothèses d'application ne sont pas toutes réunies. Ce peut être une taille d'échantillon un peu faible ou une loi de probabilité (loi normale pour les tests paramétriques) qui n'est pas très bien vérifiée. Par exemple, l'ANOVA est robuste par rapport à l'hypothèse de normalité mais pas par rapport à celle de l'homoscédasticité

D2. Un indicateur est dit "indicateur robuste" s'il est peu sensible à la présence d'outliers (le coefficient de corrélation, par exemple, n'est pas très robuste).

D3. Plus généralement, un modèle est dit "modèle robuste" lorsqu'il permet un prolongement des résultats (dans le temps ou pour une population). La robustesse s'applique aussi bien à une régression multiple qu'à une grille de score.

Par conséquent, à moins d'être uniquement descriptives, vos études devront respecter quelques règles pour que leurs conclusions soient généralisables.

Première condition d'une bonne robustesse: les données. Intuitivement, chacun sait qu'on ne transforme pas un cas en généralité (ce qui ne relèverait pas des statistiques mais des discussions de comptoir). Une quantité suffisante de données permet de bâtir des modèles fiables et solides. À titre d'exemple, des prévisions établies à partir d'une série chronologique montrant une saisonnalité nécessitent au moins trois ou quatre ans d'historique.

La quantité ne suffit pas, il faut la qualité. Mieux vaut s'abstenir que réaliser une étude sur des informations non fiables qui peuvent conduire à des décisions coûteuses. Par ailleurs, il convient d'éliminer ou d'imputer certaines observations (voir outliers). Si ce n'est pas possible, on se tourne vers des méthodes adaptées, par exemple celles qui utilisent la médiane plutôt que la moyenne.

ESTIMATEURS DE VRAISEMBLANCE

ESTIMATEURS DE LA DISTRIBUTION NORMALE

ESTIMATEURS DE LA DISTRIBUTION DE POISSON

ESTIMATEUR DE LA DISTRIBUTION BINOMIALE (ET GÉOMÉTRIQUE)

ESTIMATEURS DE LA DISTRIBUTION DE WEIBULL

ESTIMATEURS DE LA DISTRIBUTION GAMMA

FACTEUR DE CORRECTION SUR POPULATION FINIE

INTERVALLES DE CONFIANCE

I.C. SUR LA MOYENNE AVEC VARIANCE THÉORIQUE CONNUE

I.C. SUR LA VARIANCE AVEC MOYENNE THÉORIQUE CONNUE

I.C. SUR LA VARIANCE AVEC MOYENNE EMPIRIQUE

I.C. SUR LA MOYENNE AVEC VARIANCE EMPIRIQUE CONNUE

TEST BINOMIAL EXACT

I.C. POUR UNE PROPORTION

TEST DE L'ÉGALITÉ DE DEUX PROPORTIONS

TEST DES SIGNES

TEST DE LA MÉDIANE DE MOOD

TEST DE POISSON (1 ÉCHANTILLON)

TEST DE POISSON (2 ÉCHANTILLONS)

INTERVALLE DE CONFIANCE/TOLÉRANCE/PRÉDICTION

LOI FAIBLE DES GRANDS NOMBRES

FONCTION CARACTÉRISTIQUE

THÉORÈME CENTRAL LIMITE

TESTS D'HYPOTHÈSE ET D'ADÉQUATION

ORIENTATION DU TEST D'HYPOTHÈSE

pUISSANCE D'UN TEST

PUISSANCE DU TEST Z À 1 ÉCHANTILLON

puissance du test p À 1 ET 2 ÉCHANTILLONS

ANALYSE DE LA VARIANCE (À UN FACTEUR)

ANALYSE DE LA VARIANCE (ANOVA À DEUX FACTEURS SANS RÉPÉTITION)

ANALYSE DE LA VARIANCE À DEUX FACTEURS À MESURES RÉPÉTÉES

ANOVA MULTIFACTORIELLE À MESURES RÉPÉTÉES

TEST DE C DE COCHRAN

TEST D'AJUSTEMENT (D'ADÉQUATION) DU Khi-deux

TEST D'AJUSTEMENT DE KOLMOGOROV-SMIRNOV

TEST DE NORMALITÉ DE RYAN-JOINER

TEST D'AJUSTEMENT d'anderson-darling

Robustesse