Sciences.ch (statistiques)

La statistique est une science qui a pour objet le groupement méthodique de faits ou événements répétitifs qui se prêtent à une évaluation numérique ou qualitative dans le temps suivant une loi donnée. Dans l'industrie et dans l'économie en général, la statistique est une science qui permet dans un environnement incertain de faire des inférences valides.

Il faut savoir que parmi tous les domaines de la mathématique, celui qui est utilisé à la plus large échelle dans les entreprises et centres de recherches est bien la statistique et particulièrement depuis que des logiciels en facilitent grandement les calculs! Raison pour laquelle ce chapitre est un des plus gros du site internet alors que seuls les concepts élémentaires y sont présentés!

Signalons aussi que les statistiques ont très mauvaise réputation à l'université car les notations y sont souvent confuses et varient grandement d'un professeur à l'autre, d'un livre à l'autre, d'un praticien à l'autre. En toute rigueur, il faudrait se conformer au vocabulaire et notations de la norme ISO 3534-1:2006 et comme malheureusement ce chapitre a été écrit avant la publication de cette norme... un certain temps d'adaptation sera nécessaire avec qu'il y ait conformité.

Il est peut être inutile de préciser que la statistique est beaucoup utilisée en ingénierie, physique théorique, physique fondamentale, économétrie, gestion de projets ainsi que dans l'industrie des processus, dans les domaines des assurances vies et non vies, dans l'actuariat ou dans la simple analyse de banque de données (avec Microsoft Excel très souvent... malheureusement....) et la liste est encore longue. Par ailleurs, nous rencontrerons les outils présentés ici assez souvent dans les chapitres de Mécanique des Fluides, de Thermodynamique, des Techniques de Gestion, du Génie Industriel et d'Économie (en particulier dans ces deux dernières). Le lecteur pourra donc s'y reporter pour avoir des applications pratiques concrètes de quelques-uns des éléments théoriques les plus importants qui seront vus ici.

Signalons également que outre les quelques exemples simples donnés sur ces pages, de nombreux autres exemples applicatifs sont donnés sur le serveur d'exercices du site dans les catégories Probabilités et Statistiques, Génie Industriel, Économétrie et Techniques de Gestion.

Définition: Le but principal de la statistique est de déterminer les caractéristiques d'une population donnée à partir de l'étude d'une partie de cette population, appelée "échantillon" ou "échantillon représentatif". La détermination de ces caractéristiques doit permettre aux statistiques d'être un outil d'aide à la décision!

Lorsque nous observons un événement prenant en compte certains facteurs, il peut arriver qu'une deuxième observation ait lieu dans des conditions qui semblent identiques. En répétant ces mesures plusieurs fois sur différents objets supposés similaires, nous pouvons constater que les résultats observables sont distribués statistiquement autour d'une valeur moyenne qui est, finalement le résultat possible le plus probable. Dans la pratique, nous n'effectuons cependant parfois qu'une seule mesure et il s'agit alors de déterminer la valeur de l'erreur que nous commettons en adoptant celle-ci comme moyenne mesurée. Cette détermination nécessite de connaître le type de distribution statistique auquel nous avons affaire et c'est ce que nous allons nous attarder (entre autres) à étudier ici (les bases du moins!). Il existe cependant plusieurs approches méthodologiques courantes (les moins courantes n'étant pas citées pour l'instant) face au hasard:

1. Une toute première consiste à ignorer purement et simplement les éléments aléatoires, pour la bonne raison que l'on ne sait pas comment les intégrer. Nous utilisons alors la "méthode des scénarios" appelée aussi "simulation déterministe". C'est typiquement un outil utilisé par les financiers ou gestionnaires non diplômés travaillant avec des outils comme Microsoft Excel (qui inclut un outil de gestion de scénarios) ou Microsoft Project (qui inclut un outil de scénarios déterministes du type optimiste, pessimiste et attendu).

2. Une seconde approche envisageable, quand nous ne savons pas associer des probabilités précises aux futurs événements aléatoires, est la théorie des jeux (cf. chapitre de la Théorie Des Jeux Et De La Décision) où l'on utilise des critères de sélection semi-empiriques comme le critère du maximax, du minimax, de Laplace, de Savage, etc.

3. Enfin, quand nous pouvons lier des probabilités aux événements aléatoires, soit que ces probabilités découlent de calculs ou de mesures, soit qu'elles reposent sur une expérience acquise auprès de situations antérieures de même nature que la situation actuelle, nous pouvons faire appel aux statistiques descriptives et inférentielles (contenu du présent chapitre) pour tirer des informations exploitables et pertinentes de cette masse de données acquises.

4. Une dernière approche quand nous avons connaissance de probabilités relatives aux issues intervenantes faisant suite à des choix stratégiques est l'utilisation de la théorie de la décision (cf. chapitre de la Théorie Des Jeux Et De La Décision).

Remarques:

R1. Sans la statistique mathématique, un calcul sur des données (par exemple une moyenne), n'est qu'un "indicateur ponctuel". C'est la statistique mathématique qui lui donne le statut d'estimateur dont on maîtrise le biais, l'incertitude et autres caractéristiques statistiques. Nous cherchons en général à ce que l'estimateur soit sans biais, convergeant et efficace (nous verrons lors de notre étude des estimateurs plus loin de quoi il s'agit exactement).

R2. Lorsque nous communiquons une statistique il devrait être obligatoire de préciser l'intervalle de confiance, la p-value ainsi que la taille de l'échantillon étudié (statistiques absolues) et ses caractéristiques détaillées et mettre à disposition les données sources ainsi que le protocole de mesure sinon quoi elle n'a quasiment aucune valeur scientifique (nous verrons toute ces notions en détails plus loin). Une erreur courante est de communiquer en valeur relative. Par exemple sur un groupe test 1'000 femmes, 5 femmes mourront d'un cancer du sein sans dépistage, alors qu'avec dépistage 4 femmes. Un peu rapidement on dira (typiquement les médecins....) que le dépistage sauve donc 20% des femmes (valeur relative). Ce qui est faux puisqu'en absolu l'avantage du dépistage est non significatif!

R3. Si vous avez un professeur ou un formateur qui ose vous enseigner les statistiques et probabilités uniquement avec des exemples basés sur des jeux de hasard (cartes, dés, allumettes, pile ou face, etc.) débarrassez-vous en ou dénoncez-le. Normalement les exemples devraient être basés sur l'industrie, l'économie ou la R&D, bref dans des domaines utilisés tous les jours par les entreprises!

Introduisons avant de continuer quelques définitions qui vont nous être utiles pour la suite sur le concept d'échantillons et de moyennes:

ÉCHANTILLONS

Lors de l'étude statistique d'ensembles d'informations, la façon de sélectionner l'échantillon est aussi importante que la manière de l'analyser. Il faut que l'échantillon soit représentatif de la population (nous ne faisons pas nécessairement référence à des populations humaines!). Pour cela, l'échantillonnage aléatoire est le meilleur moyen d'y parvenir.

Le statisticien part toujours de l'observation d'un ensemble fini d'éléments, que nous qualifions de "population". Les éléments observés, en nombre n, sont tous de même nature, mais cette nature peut être fort différente d'une population à l'autre.

D1. Nous sommes en présence d'un "caractère quantitatif" lorsque chaque élément observé fait explicitement l'objet d'une même mesure. À un caractère quantitatif donné, nous associons une "variable quantitative" continue ou discrète qui synthétise toutes les valeurs possibles que la mesure considérée est susceptible de prendre (ce type d'information étant représenté par des distributions du type distribution de Gauss-Laplace, distribution bêta, distribution de Poisson, etc.).

D2. Nous sommes en présence d'un "caractère qualitatif" lorsque chaque élément observé fait explicitement l'objet d'un rattachement unique à une "modalité" choisie dans un ensemble de modalités exclusives (de type: homme | femme) permettant de classer tous les éléments de l'ensemble étudié selon un certain point de vue (ce type d'information étant représenté par des diagrammes à barre, fromages, diagrammes à bulles, etc.). L'ensemble des modalités d'un caractère peut être établi a priori avant l'enquête (une liste, une nomenclature, un code) ou après enquête. Une population étudiée peut être représentée par un caractère mixte, ou ensemble de modalités tel que genre, tranche salariale, tranche d'âge, nombre d'enfants, situation matrimoniale par exemple pour un individu.

D3. Un "échantillon aléatoire" est un échantillon tiré au hasard dans lequel tous les individus d'une population ont la même chance, ou "équiprobabilité" (et nous insistons sur le fait que cette probabilité doit être égale), de se retrouver dans l'échantillon.

D4. Dans le cas contraire d'un échantillon dont les éléments n'ont pas été pris au hasard, nous parlons alors "d'échantillon biaisé" (dans le cas inverse nous parlons "d'échantillon non-biaisé").

MOYENNES

La notion de "moyenne" ou "tendance centrale" (les financiers appellent cela aussi une "mesure de localisation"...) est avec la notion de "variable" à la base des statistiques.

Cette notion nous semble très familière et nous en parlons beaucoup sans nous poser trop de questions. Pourtant il existe divers qualificatifs (nous insistons sur le fait que ce ne sont que des qualificatifs!) pour distinguer la forme de la résolution d'un problème consistant à calculer la moyenne.

Ainsi, il faut être très très prudent quant aux calculs de moyennes car il y a une fâcheuse tendance dans les entreprises à se précipiter et à utiliser systématiquement la moyenne arithmétique sans réfléchir, ce qui peut amener à de graves erreurs! Un exemple sympathique (pour faire un analogie) est qu'un nombre considérable de législations exigent seulement des seuils moyens de pollution par année alors que par exemple, fumer 1 cigarette par jour pendant 365 jours n'a pas le même impact que fumer 365 cigarettes en une journée sur une année alors que les deux ont la même moyenne pris sur un an... C'est une preuve flagrante d'incompétence statistique du législateur.

- Considérer que la moyenne arithmétique est la valeur qui coupe la population en deux parties égales (alors que c'est la médiane qui fait cela).

- Considérer que la moyenne de ratios du type objectifs/réalisés est égale au ratio des moyennes des objectifs et des moyennées des réalisations (alors que ce n'est pas la même chose!).

- Considérer que la moyenne des salaires de différentes filliales est égale à la moyenne générale des salaires (alors que ceci n'est vrai que si et seulement si il y a le même nombre d'employés dans chaque filliale).

- Considérer que la moyenne de la moyenne des lignes d'un tableau est toujours égal à la moyenne des moyennes des colonnes (alors que ceci n'est vrai que si et seulement si le contenu des cellules est non vide).

- Calculer la moyenne arithmétique de progression de chiffres d'affaires données en % (alors qu'il faut utiliser la moyenne géométrique).

Nous verrons ci-dessous différentes moyennes avec des exemples relatifs à l'arithmétique, au dénombrement, à la physique, à l'économétrie, à la géométrie et à la sociologie. Le lecteur trouvera d'autres exemples pratiques en parcourant l'ensemble du site.

D1. La "moyenne arithmétique" ou "moyenne empirique" (la plus communément connue) est définie par le quotient de la somme des n valeurs observées

par l'effectif total n:

et très souvent notée

ou encore

est pour toute loi statistique discrète ou continue un estimateur sans biais de l'espérance.

La moyenne arithmétique représente donc une mesure statistique (non robuste car trop sensible aux valeurs extrêmes contrairement à la médiane) exprimant la grandeur qu'aurait chacun des membres d'un ensemble de mesures si la somme doit être identique au produit de la moyenne arithmétique par le nombre de membres.

Si plusieurs valeurs occurrent plus d'une fois dans les mesures, la moyenne arithmétique sera alors souvent notée formellement:

et appelée "moyenne pondérée (par les effectifs)". Enfin, indiquons que dans le cadre de cette démarche, la moyenne pondérée par les effectifs prendra le nom "d'espérance mathématique" dans le domaine d'étude des probabilités.

Nous pouvons tout aussi bien utiliser les fréquences d'apparition des valeurs observées (dites "fréquence des classes"):

Avant de continuer, indiquons que dans le domaine de la statistique il est souvent utile et nécessaire de regrouper les mesures/données dans des intervalles de classe de largeur donnée (voir les exemples plus loin). Il faut souvent faire plusieurs essais pour cela même s'il existe des formules semi-empiriques pour choisir le nombre de classes lorsque nous avons n valeurs à disposition. Une de ces règles semi-empiriques (nous parlons alros de technique de "discrétisation des variables") utilisée par de nombreux praticiens consiste à retenir le plus petit nombre entier de classes k tel que:

la largeur de l'intervalle de classe étant alors obtenue en divisant l'étendue (différence entre la valeur maximale mesurée et la minimale) par k. Soit:

Par convention et en toute rigueur... (donc rarement respecté dans les notations), un intervalle de classe est fermé à gauche et ouvert à droite:

Cette règle empirique se nomme la "règle de Sturges" et est basées sur le raisonnement suivant:

Nous admettons que les valeurs du coefficient binomial

donnent le nombre d'individus d'un histogramme idéal (nous laissons le lecteur vérifier cela simplement avec un tableau comme Microsoft Excel 11.8346 et la fonction COMBIN( ) qui y est disponible dans la version française) de k intervalles pour le i-ème intervalle. Au fur et à mesure que k devient grand l'histogramme ressemble de plus en plus à une courbe continue appelée "courbe Normale" que nous verrons plus loin.

Dès lors, en nous basant sur le théorème binomial (cf. chapitre de Calcul Algébrique), nous avons:

Ensuite, pour chaque intervalle i le praticien prendra par tradition la moyenne entre les deux bornes pour le calcul et la multipliera par la fréquence f_i de classe correspondante. Dès lors, le regroupement en fréquence de classes fait que:

1. La moyenne pondérée par les effectifs diffère de la moyenne arithmétique.

2. Vue l'approximation effectuée elle sera un moins bon indicateur que la moyenne arithmétique.

3. Elle est très sensible au choix du nombre de classes donc médiocre à ce niveau-là.

Il existe de nombreuses autres règles empiriques de discrétisation des variables aléatoires. Le logiciel XLStat en propose par exemple pas moins de 10 (amplitude constante, algorithme de Fisher, k-means, 20/80, etc.).

Plus loin, nous verrons deux propriétés extrêmement importantes de la moyenne arithmétique et de l'espérance mathématique qu'il vous faudra absolument comprendre (moyenne pondérée des écarts à la moyenne et la moyenne des écarts à la moyenne).

Remarque: Le "mode", noté Mod ou simplement M, est par définition la valeur qui apparaît le plus grand nombre de fois dans une série de valeurs. Dans Microsoft Excel 11.8346 (version française), soulignons que la fonction MODE( ) renvoie la première valeur dans l'ordre des valeurs ayant le plus grand nombre d'occurrences en supposant donc une distribution unimodale. Attention! La valeur modale peut être suivant les cas plus grande ou plus petite que la moyenne. Il n'y a donc pas de règle générale comme quoi elle sera toujours plus petite que la moyenne contrairement à ce qui est enseigné dans certains livres de gestion de projets.

D2. La "médiane" ou "moyenne milieu", notée

(ou plus simplement M), est la valeur qui coupe une population en deux parties égales. Dans le cas d'une distribution statistique continue f(x) d'une variable aléatoire X, il s'agit de la valeur qui représente 50% de probabilités cumulées d'avoir lieu tel que (nous détaillerons le concept de distribution statistique plus loin très en détails):

Dans le cas d'une série de valeurs ordonnées

, la médiane est donc de par sa définition la valeur de la variable telle que l'on ait autant d'éléments qui ont une valeur qui lui est supérieure ou égale, que d'éléments qui ont une valeur qui lui est inférieure ou égale.

Remarque:

R1. La médiane est principalement utilisée pour les distributions asymétriques, car elle les représente mieux que la moyenne arithmétique.

R2. La médiane n'est dans la pratique souvent pas une valeur unique (du moins dans le cas où n est pair). Effectivement, entre les valeurs correspondantes aux ranges n/2 et n/2+1 il y a une infinité de valeurs à choix qui coupent la population en deux.

- Si le nombre de termes est impair, de la forme 2n + 1, la médiane de la série est le terme de rang n + 1 (que les termes soient tous distincts ou non!).

- Si le nombre de termes est pair, de la forme 2n, la médiane de la série est la demi-somme (moyenne arithmétique) des valeurs des termes de rang n et n + 1 (que les termes soient tous distincts ou non!).

Dans tous les cas, de par cette définition, il découle qu'il y a au moins 50 % des termes de la série inférieurs ou égaux à la médiane, et au moins 50% des termes de la série supérieurs ou égaux à la médiane.

Il y a dans la tableau un nombre impair 2n + 1 de valeurs. Donc la médiane de la série est le terme de rang n+1. Soit 1'600.- (résultat que vous donnera n'importe quel tableur informatique). La moyenne arithmétique quant à elle vaut 2'020.-.

En relation directe avec la médiane il est important de définir le concept suivant afin de comprendre le mécanisme sous-jacent:

Définition: Soit donnée une série statistique

, nous appelons "dispersion des écarts absolus" autour de x le nombre

défini par:

Ce qui nous permet donc de faire sauter les valeurs absolues est simplement le choix de l'indice r qui est pris de telle manière que la série de valeurs peut en pratique toujours être coupée en deux parties: tout ce qui est inférieur à un élément de la série indexé par r et tout ce qui lui est supérieur (la médiane donc par anticipation...).

est donc une fonction affine (assimilable à l'équation d'une droite pour r et n fixés) par morceaux (discrète) où l'on peut assimiler le facteur:

La fonction est donc décroissante (pente négative) tant que r est inférieur à n/2 et croissante quand r est supérieur à n/2 (elle passe donc par un extremum!). Plus précisément, nous distinguons deux cas qui nous intéressent particulièrement puisque n est un entier:

- Si n est pair, nous pouvons poser

, alors la pente peut s'écrire

et elle est nulle si

et dès lors puisque ce résultat n'est valable par construction que pour

alors

est constante sur

et nous avons un extrémum obligatoirement au milieu de cet intervalle (moyenne arithmétique des deux termes).

- Si n est impair, nous pouvons poser

(nous coupons la série en deux parties égales), alors la pente peut s'écrire

et elle est donc nulle si

et dès lors puisque ce résultat n'est valable que pour

alors il est immédiat que la valeur du milieu sera la médiane

Nous retrouvons donc bien la médiane dans les deux cas. Nous verrons aussi plus loin comment la médiane est définie pour une variable aléatoire continue (l'idée sous-jacent étant exactement la même).

Il existe un autre cas pratique où le statisticien n'a à sa disposition que des valeurs regroupées sous forme d'intervalles de classes statistiques. La procédure pour déterminer la médiane est alors différente:

Lorsque nous avons à notre disposition uniquement une variable classée, l'abscisse du point de la médiane se situe en général à l'intérieur d'une classe. Pour obtenir alors une valeur plus précise de la médiane, nous procédons à une interpolation linéaire. C'est ce que nous appelons la "méthode d'interpolation linéaire de la médiane".

La valeur de la médiane peut être lue sur un graphique ou calculée analytiquement. Effectivement, considérons le graphique représentant la probabilité cumulée F(x) en intervalles de classe comme ci-dessous où les bornes des intervalles ont été reliées par des droites:

Figure: 7.1 - Représentation graphique de l'estimation par interpolation linéaire de la médiane

La valeur de la médiane M se trouve évidemment au croisement entre la probabilité cumulée de 50% (0.5) et l'abscisse. Ainsi, en appliquant les notions élémentaires d'analyse fonctionnelle, il vient (en observant bien évidemment que la pente dans l'intervalle contenant la médiane est égale dans les demi-intervalle de gauche et de celui à droite adjacents à la médiane):

Prenons le tableau suivant que nous retrouverons bien plus tard dans le présent chapitre:

Montant des tickets	Nombre de tickets	Nombre cumulés de tickets	Fréquences relatives cumulées
[0,50[	668	668	0.068
[50,100[	919	1'587	0.1587
[100,150[	1'498	3'085	0.3085
[150,200[	1'915	5'000	0.5000
[200,250[	1'915	6'915	0.6915
[250,300[	1'498	8'413	0.8413
[300,350[	919	9'332	0.9332
[350,400[	440	9'772	0.9772
[400 et +	228	10'000	1

Tableau: 7.2 - Identification de la classe médiane et du mode

Nous voyons que la "classe médiane" est dans l'intervalle [150,200] car la valeur cumulée de 0.5 s'y trouve (colonne toute à droite du tableau) mais la médiane a elle, en utilisant la relation établie précédemment, précisément une valeur de (c'est trivial dans l'exemple particulier du tableau ci-dessus mais faisons quand même le calcul...):

et nous pouvons faire de même avec n'importe quel autre centile bien évidemment!

Nous pouvons également donner une définition pour déterminer la valeur modale si nous sommes seulement en possession des fréquences des classes d'intervalles. Pour cela partons du diagramme appelée "distribution groupée" en barre des fréquences ci-dessous:

Figure: 7.2 - Représentation graphique de l'estimation par classess d'intervalles de la valeur modale

En utilisant les relations de Thalès (cf. chapitre de Géométrie Euclidienne), nous avons immédiatement, en notant M la valeur modale:

Comme dans une proportion, nous ne changeons pas la valeur du rapport en additionnant les numérateurs et en additionnant les dénominateurs, il vient:

La question qui se pose ensuite est celle de la pertinence du choix de la moyenne, du mode ou de la médiane en termes de communication...

Un bon exemple reste celui du marché du travail où de façon générale, alors que le salaire moyen et le salaire médian sont relativement différents, les institutions de statistiques étatiques calculent la médiane que beaucoup de médias traditionnels assimilent alors explicitement au concept de "moyenne arithmétique" dans leurs communiqués...

Les "quantiles" généralisent la notion de médiane en coupant la distribution en des ensembles donnés de parties égales (de même cardinal pourrions-nous dire...) ou autrement dit en intervalles réguliers. Nous définissons ainsi les "quartiles", les "déciles" et les "centiles" (ou "percentiles") sur la population, ordonnée dans l'ordre croissant, que nous divisons en 4, 10 ou 100 parties de même effectif.

Nous parlerons ainsi du centile 90 pour indiquer la valeur séparant les premiers 90% de la population des 10% restants.

Précisons que dans la version francophone de Microsoft Excel 11.8346 les fonctions QUARTILE( ), CENTILE( ), MEDIANE( ), RANG.POURCENTAGE ( ) sont disponibles et spécifions qu'il existe plusieurs variantes de calcul de ces centiles d'où une variation possible entre les résultats sur différents logiciels.

Ce concept est très important dans le cadre des intervalles de confiance que nous verrons beaucoup plus loin dans ce chapitre et très utile dans le domaine de la qualité avec l'utilisation des boîtes à moustaches (traduction de Box & Whiskers Plot ou BoxPlot) permettant de comparer ("discriminer" comme disent les spécialistes) rapidement deux populations de données ou plus et surtout d'éliminer les valeurs aberrantes (prendre comme référence la médiane sera justement plus judicieux!):

Une autre représentation mentale très importante des boîtes à moustache est la suivante (elle permet donc de se donner une idée de l'asymétrie de la distribution):

Figure: 7.4 - Représentation graphique du mode, de la médiane et des quartiles par rapport à une distribution

Les notions de médiane, valeurs abérrantes et intervalles de confiance que nous venons de démontrer et/ou de citer sont à ce point importantes qu'il existe des normes internationales pour les utiliser correctement. Citons d'abord la norme ISO 16269-7:2001 Médiane - Estimation et intervalles de confiance et aussi la norme ISO 16269-4:2010 Détection et traitement des valeurs aberrantes.

D3. Par analogie avec la médiane, nous définissons la "médiale" comme étant la valeur (dans l'ordre croissant des valeurs) qui partage la somme (cumuls) des valeurs en deux masses égales (donc la somme totale divisée par deux).

Dans le cas de salaires, alors que le médiane donne le 50% des salaires se trouvant en-dessous et en-dessus, la médiale donne combien de salariés se partagent (et donc le salaire partageant) la première moitié et combien de salariés se partagent la seconde moitié de l'ensemble des coûts salariaux.

Soit un carré de côté a, et un autre carré de côté b. La moyenne des aires des deux carrés est égale à un carré de côté:

Elle est peu connue en dehors de la finance mais découle souvent de raisonnements simples et pertinents (typiquement la résistance équivalente d'un circuit électrique ayant plusieurs résistances en parallèles). Il existe une fonction MOYENNE.HARMONIQUE( ) dans Microsoft Excel 11.8346 (version française) pour la calculer.

Por introduire cette moyenne considérons le cas scolaire d'une distance d parcourue dans un sens à la vitesse

et dans l'autre (ou pas) à la vitesse

. La vitesse moyenne arithmétique s'obtiendra en divisant la distance totale 2d par le temps mis à la parcourir:

Si nous calculons le temps mis lorsqu'on parcourt d avec une vitesse

c'est tout simplement le quotient:

La moyenne harmonique n'est donc qu'au point de vue calculatoire qu'un cas particulier de moyenne arithmétique de ratios dont le numérateur est toujours égal et qui se simplifie en moyenne harmonique.

En d'autres termes: Nous utilisons la moyenne harmonique lorsque nous sont données des grandeurs qui sont des ratios et dont les numérateurs (les distances) sont égales ou ramenées à être égales! Par exemple en finance où nous avons parfois des ratios qui représentent des rendements P/E (Price/Earning: pour ratio Prix sur Retour), pour pouvoir utiliser la moyenne harmonique il faut alors que le numérateur (prix) soit le même pour tous les investissements.

E1. Trois investissements ont un ratio Prix/Retour de respectivement 104%, 106% et 109% (donc a perdu de l'argent dans tous les trois investissements dans ce cas particulier). Sachant que le prix des trois investissements était initialement le même, nous utilisons la moyenne harmonique:

Alors qu'une moyenne arithmétique donnerait environ 106.33%. Ce qui fait une différence importante quand nous gérons des millions en numéraires!

Remarquons au passage l'écriture suivante qui montre que la moyenne harmonique est un cas particulier de la "moyenne arithmétique pondérée":

Si tous les poids sont tels que

alors nous retrouvons la moyenne arithmétique standard..

E2. Considérons qu'un investisseur nous mette chaque mois à disposition 300.- pour acheter un actif donné. Le premier mois cet actif vaut 9.- donc nous pouvons en acheter 33.333 unités, le deuxième mois l'actif vaut 11.- donc nous pouvons en acheter 27.27227 unités, enfin le dernier et le troisième mois l'actif vaut 4.- nous pouvons donc en acheter 75 unités. La question est alors de savoir quel est le prix moyen de cet actif dans notre portefeuille. Nous avons alors:

Cette moyenne est souvent oubliée mais néanmoins très connue dans le domaine de l'économétrie (surtout quand nous étudierons le rendement géométrique moyen) et de la finance d'entreprise (cf. chapitre Techniques De Gestion) raison pour laquelle il existe une fonction MOYENNE.GEOMETRIQUE( ) dans Microsoft Excel 11.8346 (version française) pour la calculer.

Comme avec les valeurs nulles, il est impossible de calculer la moyenne géométrique de nombres négatifs. Cependant, il existe plusieurs solutions de contournement pour ce problème, qui exigent toutes que les valeurs négatives soient converties ou transformées en une valeur équivalente positive. Le plus souvent, ce problème se pose lorsque l'on désire calculer la moyenne géométrique d'un changement en pourcents dans une population ou un retour financier, qui peut comprendre bien évidemment des nombres négatifs.

Par exemple, pour calculer la moyenne géométrique des valeurs de 12%, -8%, 0% et 2%, nous calculerons la moyenne géométrique de leurs multiplicateurs équivalents décimaux qui sont 1.12, 0.92, 1, 1.02 et 1 pour obtenir une moyenne géométrique de 1.0125. Soustrayant 1 de cette valeur donne la moyenne géométrique de 1.25% (ou dans les milieux financiers on parlera de "taux de croissance annuel composé (TCAC)").

Supposons qu'une banque offre une possibilité de placement et prévoit pour la première année un intérêt (c'est absurde mais c'est un exemple) avec un taux

, mais pour la deuxième année un intérêt avec un taux

. Au même moment une autre banque offre un intérêt à taux constant pour deux ans: X %. C'est pareil, dirons-nous un peu rapidement. En fait les deux placements n'ont pas la même rentabilité.

Dans la première banque, un capital

donnera au bout de la première année un intérêt:

Comme vous pouvez le voir le placement ne sera pas identique si

! X % n'est donc pas la moyenne arithmétique de

Au bout de deux ans le capital est multiplié par

. Si la moyenne vaut r il sera alors multiplié par

. Nous avons donc la relation:

C'est un exemple d'application où nous retrouvons donc la moyenne géométrique. L'oubli de l'utilisation de la moyenne géométrique est une erreur fréquente dans les entreprises lorsque certains employés calculent le taux moyen d'augmentation d'une valeur de référence.

La moyenne mobile est particulièrement utilisée en économie, où elle permet de représenter une courbe de tendance d'une série de valeurs, dont le nombre de points est égal au nombre total de points de la série de valeurs moins le nombre que vous spécifiez pour la période.

Une moyenne mobile en finance est calculée à partir des moyennes des cours d'une valeur, sur une période donnée: chaque point d'une moyenne mobile sur 100 séances est la moyenne des 100 derniers cours de la valeur considérée. Cette courbe, affichée simultanément avec la courbe d'évolution des cours de la valeur, permet de lisser les variations journalières de la valeur, et de dégager des tendances.

Les moyennes mobiles peuvent être calculées sur différentes périodes, ce qui permet de dégager des tendances à court terme MMC (20 séances selon les habitudes de la branche), moyen terme (50-100 séances) ou long terme MML (plus de 100 séances).

Les croisements des moyennes mobiles par la courbe des cours (découpée avec une certaine granularité) de la valeur génèrent des signaux d'achat ou de vente (selon les professionnels) suivant le cas:

Outre la moyenne mobile, précisons qu'il existe une quantité d'autres indicateurs artificiels souvent utilisés en finance comme par exemple le "upside/downside ratio".

L'idée est la suivante: Si vous avez un produit financier (cf. chapitre d'Économie) actuellement de prix

(prix courant) pour lequel vous avez un objectif de gain haut à un prix haut correspondant que nous noterons

(high price) et inversement le potentiel de perte que vous estimez à un prix

(low price).

Par exemple, un produit financier de 10.- avec un prix bas de 5.- et un prix haut de 15.- a donc un ratio

et donc un facteur spéculatif identique pour permettre le gain ou une perte de 5.-.

Un produit financier de 10.- avec un prix bas de 5.- et un prix haut de 20.- a donc un

donc deux fois le potentiel spéculatif de gain par rapport à celui de perte.

Certaines associations boursières recommandent de refuser les

inférieurs à 3. Les investisseurs ont tendance à rejeter les

trop élevés pouvant être un signe de gonflage artificiel.

D8. La "moyenne pondérée" (dont nous avons déjà fait mention plus haut d'un cas particulier) est définie par:

et est utilisée par exemple en géométrie pour localiser le barycentre d'un polygone, en physique pour déterminer le centre de gravité ou en statistiques pour calculer une espérance (le dénominateur étant toujours égal à l'unité en probabilités) et en gestion de projets pour estimer les durées des tâches.

Dans le cas général le poids equation

représente l'influence pondérée ou arbitraire/empirique de l'élément

par rapport aux autres.

où

dépend d'une fonction f d'une variable réelle intégrable (cf. chapitre de Calcul Différentiel Et Intégral) sur un intervalle [a,b]. Elle est très souvent utilisée en théorie du signal (électronique, électrotechnique).

LISSAGE DE LAPLACE

Pour en revenir à nos fréquences de classes vues bien plus haut et avant de continuer avec l'étude de quelques propriétés mathématiques des moyennes... il faut savoir que lorsque nous travaillons avec des lois discrètes de probabilités il arrive très (très) fréquemment que nous rencontrions un problème typique dont la source est la taille de la population.

Considérons comme exemple le cas où nous avons 12 documents et que nous souhaiterions estimer la probabilité d'occurrence du mot "Viagra". Nous avons sur un échantillon les valeurs suivantes:

Identifiant document	Occurrences du mot
1	1
2	0
3	2
4	0
5	4
6	6
7	3
8	0
9	6
10	2
11	0
12	1

Tableau: 7.4 - Fréquences de classe du mot

Occurrences du mot	Documents	Probabilité
0	4	0.33
1	2	0.17
2	2	0.17
3	1	0.083
4	1	0.083
5	0	0
6	2	0.17

Tableau: 7.5 - Fréquences de classe respective des documents

Et ici nous avons un phénomène courant. Il n'y a aucun document avec 5 occurrences du mot qui nous intéresse. L'idée (très courante dans le domaine du Data Mining) est alors d'ajouter artificiellement et empiriquement un comptage en utilisant une technique appelée "lissage de Laplace" qui consiste à additionner k unités à chaque occurrence. Dès lors le tableau devient:

Occurrences du mot	Documents	Probabilité
0	5	0.26
1	3	0.16
2	3	0.16
3	2	0.11
4	2	0.11
5	1	0.05
6	3	0.16

Tableau: 7.6 - Fréquences de classes des documents avec lissage

Évidemment ce type de technique est sujet à débat et sort du cadre scientifique... Nous avons même hésité à présenter cette technique dans le chapitre de Méthodes Numériques (avec le reste de toutes les techniques numériques empiriques)...

PROPRIÉTÉS DES MOYENNES

Voyons maintenant quelques propriétés pertinentes qui relient quelques-unes de ces moyennes ou qui sont propres à une moyenne donnée.

Les premières propriétés sont importantes donc prenez garde à bien les comprendre:

P1. Le calcul des moyennes arithmétique, quadratique et harmonique peut être généralisé à l'aide de la relation suivante:

P2. La moyenne arithmétique a une propriété de linéarité, c'est-à-dire que (sans démonstration car simple à vérifier):

C'est la version statistique de la propriété de l'espérance en probabilité que nous verrons plus loin (l'espérance est linéaire que les variables aéatoires soient dépendantes ou non!).

Par extension la moyenne arithmétique des écarts pondérés à la moyenne par les effectifs est nulle aussi:

Ce résultat est relativement important car il permettra plus loin de mieux saisir le concept d'écart-type et de variance.

Tout d'abord, nous prenons deux nombres réels non nuls

tels que

et nous écrivons:

Or le carré d'un nombre (réel) est toujours positif ce qui vérifie notre hypothèse initiale:

Il est important de remarquer ici (car c'est une erreur fréquente dans les entreprise et administrations) que la moyenne géométrique est inférieure à la moyenne arithmétique. Ce qui suivant les cas pratiques peut être une erreur de confusion favorable ou défavorable à la personne qui utilise la moyenne arithmétique en lieu et place de la moyenne géométrique.

Ces inégalités démontrées, nous pouvons alors passer à une figure que nous attribuons à Archimède pour placer trois de ces moyennes. L'intérêt de cet exemple est de montrer qu'il existe des relations remarquables parfois entre la statistique et la géométrie (fruit du hasard ???).

Figure: 7.6 - Point de départ pour la représentation géométrique des moyennes

Nous allons d'abord poser

et O est le milieu de

. Ainsi, le cercle dessiné

est de centre O et de rayon

. D est l'intersection de la perpendiculaire à

passant par B et du cercle

(nous choisissons l'intersection que nous voulons). H est quant à lui le projeté orthogonal de B sur

Archimède affirme que

est la moyenne arithmétique de a et b et que

est la moyenne géométrique de a et b, et

la moyenne harmonique de a et b.

Nous savons que D est sur un cercle de diamètre

, donc ADC est rectangle en D. Alors:

Nous reste à prouver alors que

est la moyenne harmonique de a et b. Nous avons dans un premier temps (projection orthogonale):

est donc bien la moyenne harmonique de a et b. Archimède ne s'était pas trompé!

TYPES DE VARIABLES

Lorsque nous avons parlé des échantillons au début de ce chapitre, nous avons fait mention de deux types d'informations: les variables quantitatives et qualitatives. Nous n'avons cependant pas précisé qu'il existait trois types de variables quantitatives très importantes qu'il convient absolument de différencier:

1. Les "variables discrètes" (par comptage): Sont analysées avec des lois statistiques basées sur un domaine de définition dénombrable toujours strictement positif (lois de Poisson ou hypergéométrique typiquement dans l'industrie). Sont quasiment toujours représentées sous forme graphique par des histogrammes.

2. Les "variables continues" (par mesure): Sont analysées avec des lois statistiques basées sur un domaine de définition non dénombrable strictement positif ou pouvant prendre toute valeur positive ou négative (loi Normale typiquement dans l'industrie). Sont également quasiment toujours représentées sous forme graphique par des histogrammes avec des intervalles de classe.

3. Les "variables par attribut" (de classification): Il ne s'agit pas de données numériques mais de données qualitatives de type {Oui, Non}, {Réussi, Échec}, {A temps, En retard}, {rouge, vert, bleu, noir}, etc. Les données de type attribut binaire suivent une loi de Bernoulli alors que les variables qualitatives d'ordre supérieurs n'ont ni moyenne ni écart-type (effectivement... cherchez la la moyenne et l'écart-type entre les variables qualitatives Rouge, Vert et Rose....).

Comprendre les différents types de données est une discipline importante de l'ingénieur parce que cela a des conséquences importantes sur le type d'analyse, les outils et techniques qui seront employés.

Une question fréquente concernant la collecte de données est de savoir quelle est la quantité qui devrait être collectée. Au fait cela dépend du niveau de précision souhaité. Nous verrons beaucoup plus loin dans ce chapitre (avec démonstration) comment déterminer mathématiquement la quantité de données à collecter.

Maintenant que le concept de moyenne nous est relativement bien connu, nous allons pouvoir aborder des calculs plus formels et qui prendront tout leur sens.

VARIABLES DISCRÈTES

Soit X une variable indépendante (un individu d'un échantillon dont la propriété est indépendante des autres individus) qui peut prendre les valeurs aléatoires discrètes

dans

(réalisations du vecteur

) avec les probabilités respectives

où, de par l'axiomatique des probabilités:

D1. Soit X une variable aléatoire (v.a.) numérique (quantitative). Elle est complètement décrite par la valeur de la probabilité (pour les variables discrètes) ou par la probabilité cumulée (pour les variables continues) pour qu'une réalisation de cette variable soit inférieure à x pour tout x. Cette probabilité (cumulée) est notée:

où F(x) s'appelle la "fonction de répartition" de la variable X. C'est la proportion théorique de la population considérée dont la valeur est inférieure ou égale à x. Il s'ensuit:

D2. La "fonction de répartition empirique" est quant à elle définie naturellement par (nous avons indiqué les différentes notations courantes dans la littérature):

associé à l'échantillon de variables aléatoires indépendantes et identiquement distribuées (ce que l'on nomme aussi un "vecteur aléatoire" noté

Il s'agit simplement du cumul normalisé à l'unité des fréquences d'apparition en-dessous d'un certaine valeur fixée (démarche que la majorité des êtres humains font naturellement en cherchant la fonction de répartition).

Donc si nous reprenons l'exemple de salaires, vu plus haut, nous avons alors par exemple pour x fixé à 1'800:

La fonction de répartition est clairement une fonction monotone croissante (ou plus précisément "non décroissante") dont les valeurs vont de 0 à 1.

Voyons une propriété que nous utiliserons plusieurs fois et qui est importante dans la pratique (propriétété valable aussi bien pour les variables aléatoires discrètes que continues):

Soit X une variable aléatoire de fonction de répartition

et de fonction de densité

(rappel:

) et

une constante. Nous voulons déterminer la fonction de répartition et la fonction de densité de la v.a. à partir de

respectivement.

ESPÉRANCE ET VARIANCE DE V.A. discrètes

Définition: Nous définissons "l'espérance mathématique", appelée aussi "moment d'ordre 1", de la variable aléatoire X par la relation:

En d'autres termes, nous savons qu'à chaque événement de l'espace des échantillons est associé une probabilité à laquelle nous associons également une valeur (donnée par la variable aléatoire). La question étant alors de savoir quelle valeur, à long terme, nous pouvons obtenir? La valeur espérée, (l'espérance mathématique donc...) est alors la moyenne pondérée, par la probabilité, de toutes les valeurs des événements de l'espace des échantillons.

Si la probabilité est donnée par une fonction de distribution (voir les définitions des fonctions de distribution plus bas) de la variable aléatoire, nous avons:

Remarques:

R1. L'espérance peut être notée s'il n'y pas de confusion possible.

R2. Si nous considérons chaque valeur comme les composantes d'un vecteur et chaque probabilité (ou pondération) comme les composantes d'un vecteur alors nous pouvons écrire l'espérance de manière technique sous la forme d'un produit scalaire souvent noté:

(7.88)

Voici les propriétés mathématiques les plus importantes de l'espérance pour toute variable aléatoire (quelle que soit sa loi de distribution!) ou pour toute série de variables aléatoires et que nous utiliserons souvent tout au long de ce chapitre:

où nous avons utilisé dans la 4ème ligne, la propriété vue dans le chapitre de Probabilités:

Nous en déduisons que pour n variables aléatoires

, non nécessairement définies sur une même loi de distribution:

Et si les deux variables aléatoires sont indépendantes, alors la probabilité conjointe est égale au produite des probabilités. Il vient alors:

Donc l'espérance du produit de variables aléatoires indépendantes est toujours égal au produit des espérances.

Évidemment, nous supposerons comme évident que ces quatre propriétés s'étendent au cas continu!

Définition: Après avoir traduit la tendance par l'espérance il est intéressant de traduire la dispersion ou "déviation standard" autour de l'espérance par une valeur appelée "variance de X" ou encore "moment centré du deuxième ordre", notée V(X) ou

(lire "sigma-deux") et donnée sous sa forme discrète par:

La variance n'est cependant pas comparable directement à la moyenne, car l'unité de la variance est le carré de l'unité de la variable aléatoire, ce qui découle directement de sa définition. Pour que l'indicateur de dispersion puisse être comparé aux paramètres de tendance centrale (moyenne, médiane et... mode), il suffit alors de prendre la racine carrée de la variance.

L'écart-type est donc la moyenne quadratique des écarts (ou "écart moyen quadratique") entre les observations et leur moyenne.

Définition: Le rapport

(exprimé en %) souvent utilisé dans les entreprises comme comparaison de la moyenne et de l'écart-type est appelé le "coefficient de variation" (C.V.) car il n'a pas d'unités (ce qui est son avantage) et parce que plusieurs méthodes industrielles statistiques considèrent qu'un bon C.V. doit idéalement être juste de l'ordre de quelques % seulement.

Pourquoi trouvons-nous un carré (réciproquement une racine) dans la définition de la variance? La raison intuitive est simple (la rigoureuse l'est nettement moins...). Souvenez-vous que nous avons démontré plus haut que la somme des écarts à la moyenne pondérés par les effectifs, est toujours nulle:

Or, si nous assimilons les effectifs par la probabilité en normalisant ceux-ci par rapport à n, nous tombons sur une relation qui est la même que la variance à la différence que le terme entre parenthèse n'est pas au carré. Et nous voyons alors immédiatement le problème... la mesure de dispersion serait toujours nulle d'où la nécessité de porter cela au carré.

Nous pourrions imaginer cependant d'utiliser la valeur absolue des écarts à la moyenne, mais pour un certain nombre de raisons que nous verrons plus loin lors de notre étude des estimateurs, le choix de porter au carré s'impose assez naturellement.

Signalons cependant quand même l'utilisation courante dans l'industrie deux autres indicateurs fréquents de la dispersion:

- "L'écart absolu moyen" (moyenne des valeurs absolues des écarts à la moyenne):

qui est un indicateur élémentaire très utilisé lorsque nous ne souhaitons pas faire de l'inférence statistique sur une série de mesures. Cet écart peut être facilement calculé dans la version française Microsoft Excel 11.8346 à l'aide de la fonction ECART.MOYEN( ).

- La "déviation absolue de la médiane" notée MAD (médiane des valeurs absolues des écarts à la médiane):

qui est considérée comme un indicateur plus robuste de la dispersion que ceux donnés par l'écart absolu moyen ou l'écart-type (malheureusement cet indicateur n'est pas intégré à ma connaissances nativement dans les tableurs).

Dans le cas où nous avons à disposition une série de mesures, nous pouvons estimer la valeur expérimentale de la moyenne (l'espérance) et de la variance par les estimateurs suivants (il s'agit simplement au fait de l'espérance et l'écart-type d'un échantillon dont les événements sont tous équiprobables) dont la notation est particulière:

Et démontrons un petite propriété bien sympathique comme quoi la moyenne arithmétique est un optimum de la somme des carrés des écarts. Effectivement, nous avons:

Il s'agit donc bien de la moyenne arithmétique. Maintenant pour savoir s'il s'agit d'un extrema de type maximum ou minimum il suffit de faire la dérivée seconde et de voir que cela donne une constante positive (donc la dérivée première augmente quand

augmente). Il s'agit alors d'un bien extrema de type minimum!!!

Le terme de la somme se trouvant dans l'expression de la variance (écart-type) est appelée "somme des carrés des écarts à la moyenne" ou "somme des carrés des erreurs à la moyenne". Nous l'appelons aussi la "somme des carrés totale", ou encore la "variation totale" dans le cadre de l'étude de l'ANOVA (voir la fin de ce chapitre).

Avant de poursuivre, rappelons le concept de moyenne géométrique vu plus haut (très utilisée pour les rendements en finance ou les analyses de croissances en % de chiffres d'affaires ou ventes):

C'est bien joli mais les financiers ont besoin de calculer aussi l'écart-type d'une telle moyenne. L'idée est alors d'en prendre le logarithme pour la ramener à une simple moyenne arithmétique (il s'agit toujours bien évidemment d'estimateurs!):

Dès lors, puisqu'en prenant le logarithme des valeurs nous nous ramenons à la moyenne arithmétique du logarithme des valeurs, alors le logarithme de l'écart-type géométrique (avec un raisonnement à la physicienne...) sera:

Il suffit alors de prendre l'exponentielle de l'écart-type des logarithmes des valeurs pour avoir "l'écart-type géométrique":

Faisons maintenant un petit crochet relativement à un scénario fréquent générateur d'erreurs dans les entreprises lorsque plusieurs séries statistiques sont manipulées (cas très fréquent dans l'industrie ainsi que dans les assurances ou la finance).

Donc la moyenne des moyennes n'est pas égale à la moyenne globale (première erreur fréquente dans les entreprises) exceptée si les deux séries statistiques ont le même nombre d'effectifs!!!

Pour la suite, rappelons que nous avons démontré précédemment la relation de Huygens:

Donc nous voyons que l'écart-type global n'est pas égal à la somme des écarts-types (deuxième erreur courante dans les entreprises) excepté si les effectifs et les moyennes sont les mêmes dans les deux séries!!!

Considérons maintenant X une variable aléatoire d'espérance

(valeur constante et déterminée) et de variance

(valeur constante et déterminée), nous définissons la "variable centrée réduite" par la relation:

et nous démontrons de façon très simple en utilisant la propriété de linéarité de l'espérance et la propriété de multiplication par un scalaire de la variance (voir de suite après) que:

Ainsi, toute répartition statistique définie par une moyenne et un écart-type peut être transformée en une autre distribution statistique souvent plus simple à analyser. Ainsi en faisant cette transformation, nous obtenons une variable aléatoire dont les paramètres de la loi de distribution ne sont plus utiles à connaître. Quand nous faisons cela avec d'autres lois, et dans le cas général, nous parlons alors de "variables pivotales".

P3. Produit de deux variables aléatoires (en utilisant la relation de Huyghens):

Ce que l'on peut réécrire en utilisant encore une fois la relation de Huyghens:

Évidemment, nous supposerons comme évident que ces quatre propriétés s'étendent au cas continu!

COVARIANCE DISCRèTE

Nous venons de voir dans la dernière relation le concept de "covariance" dont nous déterminerons une expression plus commode un peu plus bas mais donc définie par:

Introduisons une forme plus générale et extrêmement importante de la covariance dans de nombreux domaines:

et donc nous obtenons la relation très utilisée en statistiques et finance dans la pratique appelée "formule de la covariance"...:

qui est cependant plus connue sous la forme (nous voyons trivial que l'ordre des données est important dans l'expression de la covariance!):

Indiquons également que si

, ce qui équivaut donc à une covariance univariée, nous retrouvons la relation de Huyghens:

Si et seulement si les variables sont équiprobables, nous retrouvons la covariance dans la littérature sous la forme suivante, appelée parfois "covariance de Pearson", qui découle de calculs que nous avons déjà fait antérieurement avec l'espérance:

La covariance est un indicateur de la variation simultanée de X et Y. En effet, si en général X et Y croissent simultanément, les produits

seront positifs (corrélés positivement), tandis que si Y décroît lorsque X croît, ces même produits seront négatifs (corrélés négativement).

Signalons que si nous distribuons les termes de la dernière relation, nous avons:

et nous avons déjà démontré que la somme des écarts à la moyenne est nulle. Dès lors nous obtenons une autre forme courante de la covariance (très utile dans les tableurs!):

Donc au final, dans le cas équiprobable, nous avons finalement les trois relations équivalentes importantes utilisées dans différents chapitres du présent site:

Dans le chapitre de Méthodes Numériques pour notre étude de la régression linéaire et de l'analyse factorielle nous aurons besoin de l'expression explicite de la propriété de bilinéarité de la variance. Pour voir en quoi cela consiste exactement, considérons trois variables aléatoires X, Y et Z et a et b deux constantes. Alors en utilisant la troisième relation donnée précédemment, nous avons:

Cette dernière relation est elle aussi importante et sera utilisée dans plusieurs chapitres du site (Économie, Méthodes Numériques). Elle nous permet aussi d'obtenir directement des covariances entre des sommes de variables aléatoires.

Si X, Y, Z, T sont quatre variables aléatoires définies sur la même population, nous voulons calculer la covariance suivante:

Nous allons donc développer en deux fois (raison pour laquelle nous appelons cela la "bilinéarité"). D'abord par rapport au second argument (arbitrairement!):

Maintenant, considérons

un vecteur de composantes

un autre vecteur de composantes

, tous deux étant des variables aléatoires, le calcul de la covariance des composantes deux à deux donne ce que l'on appelle la "matrice des covariances" ou plus exactement "matrice des variances-covariances" (outil très utilisé en finance, dans la gestion en général et les méthodes numériques statistiques!).

Nous pouvons dès lors écrire une matrice symétrique (normalement dans la pratique elle doit être carrée...) sous la forme:

Par symétrie et étant donnée qu'elle est carrée de dimension n par n seul le nombre suivant de composantes nous est utile pour déterminer l'ensemble de la matrice (information triviale mais importante pour lorsque nous étudierons la modélisation par équations structurelles dans le chapitre de Méthodes Numériques):

Cette matrice a comme propriété remarquable que si nous prenons donc n vecteurs et que nous calculons la matrice des covariances, alors la diagonale de cette dernière donnera les variances des des vecteurs pris par pair (voir les exemples dans le chapitre d'Économie ou de Méthodes Numériques)! Raison pour laquelle cette matrice est souvent appelée "matrices des variances-covariances" et se retrouve donc parfois notée également sous la forme suivante:

Cette matrice a pour avantage de montrer rapidement quelles sont les couples de variables aléatoires qui ont une covariance négative et donc... dont la variance de la somme est plus petite que la somme des variances.

Rappelons maintenant que nous avions un axiome en probabilités (cf. chapitre de Probabilités) qui énonçait que deux événements A, B sont indépendants si:

De la même façon, par extension, nous définissons l'indépendance des variables aléatoires discrètes.

Définition: Soit X, Y deux variables aléatoires discrètes. Nous disons que X, Y sont indépendantes si:

L'indépendance de deux variables aléatoires implique que leur covariance est nulle (la réciproque est fausse!). Prouvons ceci dans le cas où les variables aléatoires ne prennent qu'un nombre fini de valeurs

respectivement, avec I, J des ensembles finis:

De manière plus générale si

sont indépendantes (en bloc) alors pour toute loi statistique (!) nous avons:

ESPÉRANCE ET VARIANCE DE LA MOYENNE (ERREUR STANDARD)

Souvent en statistique, il est utile de déterminer l'écart-type de la moyenne empirique. Voyons de quoi il s'agit!

Soit la moyenne d'une série de termes déterminés chacun par la mesure de plusieurs valeurs (il s'agit au fait de son estimateur dans un cas particulier comme nous le verrons beaucoup plus loin):

et si toutes les variables aléatoires sont identiquement distribuées et indépendantes nous avons alors:

et si les variables aléatoires sont toutes identiquement distribuées et indépendantes (nous étudierons plus loin le cas très important et courant dans la pratique où cette dernière condition n'est pas satisfaite):

d'où l'écart-type de la moyenne appelé aussi "erreur-type", "erreur-standard" ou encore "variation non systématique":

et il s'agit rigoureusement de l'écart-type de l'estimateur de la moyenne (c'est peut-être plus clair ainsi)!

Cette relation se trouve dans de nombreux logiciels dont les graphiques Microsoft Excel (mais il n'y a pas de fonction intégrée dans Excel), écrite soit avec l'écart-type (comme ci-dessus), soit avec la notation de la variance (suffit de mettre au carré...).

Signalons que la dernière relation peut être utilisée même si la moyenne des n variables aléatoires n'est pas identique! La condition principale étant juste que les écarts-types soient tous égaux et c'est le cas dans la pratique de l'industrie (production).

Par ailleurs, en supposant que le lecteur sache déjà ce qu'est une loi Normale

, nous démontrerons plus loin en détails car c'est extrêmement important (!) que la loi de probabilité de la variable aléatoire

, moyenne de n variables aléatoires identiquement distribuées et linéairement indépendantes, est alors la loi:

COEFFICIENT DE CORRÉLATION

Maintenant, considérons X et Y deux variables aléatoires ayant pour covariance:

Nous allons démontrer cette relation immédiatement car l'utilisation de la covariance seule pour l'analyse des données n'est pas géniale car elle n'est pas à proprement parler bornée et simple d'usage (au niveau de l'interprétation). Nous allons donc construire un indicateur plus facile d'usage en entreprise.

Nous pouvons alors immédiatement écrire à l'aide des propriétés de la variance et de l'espérance:

La quantité de droite est positive ou nulle en tout a par construction de la variance (de gauche). Donc le discriminant de l'expression, vue comme un trinôme en a est du type:

Donc pour que P(a) soit positif pour tout a nous avons comme seule possibilité que:

Finalement nous obtenons une forme de l'inégalité statistique dite "inégalité de Cauchy-Schwarz":

Si les variances de X et Y sont non nulles, la corrélation entre X et Y est définie par le "coefficient de corrélation linéaire" (il s'agit donc de la covariance standardisée afin que son amplitude ne soit pas dépendante de l'unité de mesure choisie) et noté:

Ce qui peut aussi s'écrire sous forme développée (en utilisant la relation de Huyghens):

Signalons que normalement, la lettre R est réservée pour dire qu'il s'agit d'un estimateur du coefficient de corrélation alors que la définition ci-dessus n'est pas un estimateur et qu'en toute rigueur, nous devrions alors noter

selon les traditions d'usage.

Quels que soient l'unité et les ordres de grandeur, le coefficient de corrélation est donc un nombre sans unités (donc sa valeur ne dépend pas de l'unité de mesure choisie, ce qui n'est de loin pas le cas de tous les indicateurs statistiques!), compris entre -1 et 1. Il traduit la plus ou moins grande dépendance linéaire de X et Y et ou, géométriquement, le plus ou moins grand aplatissement. Nous pouvons donc dire qu'un coefficient de corrélation nul ou proche de 0 signifie qu'il n'y a pas de relation linéaire entre les caractères. Mais il n'entraîne aucune notion d'indépendance plus générale.

Quand le coefficient de corrélation est proche de 1 ou -1, les caractères sont dits fortement corrélés. Il faut prendre garde à la confusion fréquente entre corrélation et causalité. Ainsi, que deux phénomènes soient corrélés n'implique en aucune façon que l'un soit cause de l'autre.

- Si

nous avons affaire à une corrélation négative dite "corrélation négative parfaite" (dans la cas d'une relation linéaire tous les points de mesures sont situés sur une droite de pente négative).

- Si

nous avons affaire à une corrélation négative ou positive dite "corrélation imparfaite" (dans la cas d'une relation linéaire tous les points de mesures sont situés sur une droite de pente négative ou respectivement positive).

- Si

la corrélation est nulle... (dans la cas d'une relation linéaire tous les points de mesures sont situés sur une droite de pente nulle).

- Si

nous avons affaire à une corrélation positive dite "corrélation positive parfaite" (dans la cas d'une relation linéaire tous les points de mesures sont situés sur une droite de pente positive).

L'analyse du coefficient de corrélation poursuit donc l'objectif de déterminer le degré d'association entre les différentes variables: celui-ci est souvent exprimé par le coefficient de détermination, qui est le carré du coefficient de corrélation. Le coefficient de détermination mesure donc la contribution d'une des variables à l'explication de la seconde.

En utilisant les expressions de la moyenne et de l'écart-type de variables équiprobables telles que démontrées plus haut (donc cela restreint l'application de ce coefficient à des variables aléatoires dont la distribution jointe est Normale!!), nous passons de:

où nous voyons que la covariance devient alors la moyenne des produits moins le produit des moyennes.

Le coefficient de corrélation peut être calculé dans version française de Microsoft Excel 11.8346 avec entre autres la fonction intégrée COEFFICIENT.CORRELATION( ).

À signaler que nous verrons dans le chapitre de Méthodes Numériques l'expression générale du coefficient de corrélation.

Enfin, à noter que nous avons donc la relation suivante qui est énormément utilisée dans la pratique (voir le chapitre d'Économie pour des exemples fameux!):

Il s'agit d'une relation que l'on retrouve souvent en finance dans le cadre du calcul de la VaR selon la méthodologie RiskMetrics proposée par J.P. Morgan (cf. chapitre d'Économie).

Une compagnie aérienne a à sa disposition 120 sièges qu'elle réserve pour des passagers en correspondance venant de deux autres vols arrivés un peu plus tôt dans la journée et en partance pour Francfort. Le premier vol arrive de Manille et le nombre de passagers à son bord suit une loi Normale de moyenne 50 et de variance 169. Le second vol arrive de Taipei et le nombre de passagers à son bord suit une loi Normale de moyenne 45 et de variance 196.

Le coefficient de corrélation linéaire entre le nombre de passagers des deux vols est mesuré comme étant:

La loi que suit le nombre de passagers pour Francfort si nous supposons que la loi du couple suit elle aussi une loi Normale (selon énoncé!) est:

VARIABLES CONTINUES

D1. Nous disons que X est une variable continue si sa "fonction de répartition" est continue. La fonction de répartition de X étant définie par:

soit la probabilité cumulée que la variable aléatoire X soit plus petite ou égale à la valeur x fixée. Nous avons aussi bien évidemment:

la "fonction de survie" ("survival function" en anglais) ou "fonction de queue" ("tail distribution function").

D3. Si de plus la fonction de répartition F de X est continûment dérivable de dérivée

appelée "fonction de densité" ou "fonction de masse" ou encore "fonction de distribution" alors nous disons que X est absolument continue et dans ce cas nous avons:

Toute fonction de distribution de probabilité doit satisfaire l'intégrale de normalisation dans son domaine de définition!

La moyenne ayant été définie par la somme pondérée par les probabilités pour une variable discrète, elle devient une intégrale pour une variable continue:

Nous avons alors aussi la médiane qui est logiquement redéfinie dans le cas d'une variable aléatoire continue par:

Souvent les statisticiens utilisent les mêmes notations pour l'espérance mathématique d'une variable continue:

Par la suite, nous calculerons ces différents indicateurs avec démonstrations détaillées uniquement pour les cas les plus usités.

POSTULAT FONDAMENTAL DE LA STATISTIQUE

Un des buts ultime de la statistique est de remonter de l'échantillon à la fonction de répartition analytique qui lui aurait donné naissance. Ce but sera présenté dans le cadre de ce site internet comme un postulat (bien que cela postulat soit très difficile à appliquer dans la pratique).

Postulat: À toute fonction de répartition empirique

nous pouvons associer une fonction de répartition théorique F(x) vers laquelle elle converge quand la taille de l'échantillon est suffisamment grande.

est la variable aléatoire définie comme la plus grande différence (en valeur absolue) entre

et F(x) (observée pour toutes les valeurs de x pour un échantillon donné), alors X_n converge vers 0 presque sûrement.

Remarque: Les mathématiciens de la statistique démontrent ce postulat de manière rigoureuse sous la forme d'un théorème appelé le "théorème fondamental de la statistique" ou "théorème de Glivenko-Cantelli" en ce qui concerne les fonctions continues. Personnellement, quitte à choquer les connaisseurs, je considère que cette démonstration n'en est pas une car elle est très éloignée ce que montre l'expérience (oui c'est mon côté physicien qui ressort...) et ce résultat théorique amène un grand nombre de praticiens à faire souvent tout leur possible (exclusion de données, transformations et autres abominations) pour trouver une loi connue à laquelle ils peuvent ajuster leurs données mesurées.

INDICE DE DIVERSITÉ

Il arrive dans le domaine de la biologie ou de l'entreprise que l'on demande à un statisticien ou analyste de mesurer la diversité d'un certain nombre d'éléments prédéfinis. Par exemple, imaginons une multinationale ayant une gamme de produits bien définie et dont certains magasins (clients) dans le monde peuvent choisir un sous-ensemble de cette gamme pour leur commerce. La question étant alors de faire un ranking des magasins qui vendent la plus grande diversité de produits de la marque et ce en prenant en compte aussi les quantités.

Par exemple, nous avons une liste de 4 produits au total dans notre catalogue. Le hasard faisant, trois de nos clients vendent nos 4 produits mais nous souhaiterions savoir lequel en vend la plus grande diversité et ce en prenant en compte les quantités.

Une mesure de l'information (diversité des états) qui peut être bien adaptée à cet objectif est la formule de Shannon introduite dans le chapitre de Mécanique Statistique dont l'espérance est:

Arbitrairement, nous prendrons

et la base 10 pour le logarithme (ainsi, si nous avons 10 variables équiprobables, l'entropie sera unitaire par exemple...).

Nous allons récrire cela de manière plus adéquate pour l'application en entreprise. Ainsi, si n est le nombre de produits et

est la proportion (ou "fréquence relative") de ventes du produit i parmi la totalité des ventes N nous avons alors:

qui est la valeur maximale possible (chaque état est équiprobable). Et pour le client 2 nous avons:

Ainsi, le client ayant la plus grande diversité est le premier. Nous voyons aussi une propriété intéressante de la formule de Shannon à l'aide des clients 2 et 3 c'est que la quantité n'influe pas sur la diversité (puisque la seule différence entre les deux clients est la quantité qui est multipliée d'un facteur 2 et non la diversité)!

FONCTIONS DE DISTRIBUTIONS

Lorsque nous observons des phénomènes probabilistes, et que nous prenons note des valeurs prises par ces derniers et que nous les reportons graphiquement, nous observons toujours que les différentes mesures obtenues suivent une caractéristique courbe typique qui est parfois ajustable théoriquement avec un bon niveau de qualité.

Dans le domaine des probabilités et statistiques, nous appelons ces caractéristiques des "fonctions de distribution" car elles indiquent la fréquence avec laquelle la variable aléatoire apparaît avec certaines valeurs.

Ces fonctions sont en pratique bornées par ce que nous appelons "l'étendue de la distribution", ou "dispersion de la distribution", qui correspond à la différence entre la donnée maximale (à droite) et la donnée minimale (à gauche) des valeurs observées:

notée souvent aussi R (pour "range" en anglais) dans l'ingénierie de la qualité (cf. chapitre de Génie Industriel). Dans la théorie elles sont non nécessairement bornées et nous parlons alors (cf. chapitre d'Analyse Fonctionnelle) de "domaine de définition" ou plus simplement du "support" de la fonction.

Si les valeurs observées se distribuent d'une certaine manière c'est qu'elles ont alors une probabilité (ou probabilité cumulée dans le cadres des fonctions continues) d'avoir une certaine valeur de la fonction de distribution.

Dans la pratique industrielle (cf. chapitre de Génie Industriel), l'étendue des valeurs statistiques est importante (de même que l'écart-type) parce qu'elle donne une indication sur la variation d'un processus (variabilité).

D1. La relation mathématique qui donne la probabilité qu'a une variable aléatoire d'avoir une valeur précise de la fonction de distribution est appelée "fonction de densité" (ou "fonction de densité de probabilité"), "fonction de masse" ou encore "fonction marginale".

D2. La relation mathématique qui donne la probabilité cumulée qu'a une variable aléatoire d'être inférieure ou égale à une certaine valeur est nommée la "fonction de répartition" ou "fonction cumulée".

D3. Des variables aléatoires sont dites "indépendantes et identiquement distribuées" (i.i.d.) si elles suivent toutes la même fonction de distribution et qu'elles sont indépendantes.

De telles fonctions étant très nombreuses dans la nature, nous proposons au lecteur ci-après une étude détaillée des plus connues seulement.

Indiquons avant d'aller plus loin que si nous notons X une variable aléatoire continue ou discrète, il y a plusieurs usages de notation dans la littérature scientifique pour indiquer qu'elle suit une loi de probabilité donnée L. Voici les plus courantes:

Dans le présent chapitre et tout le site Internet en général, nous utiliserons la dernière notation.

Voici la liste des fonctions de distribution que nous allons voir ici ainsi que les fonctions de distributions utilisées couramment dans l'industrie et se trouvant dans d'autres chapitres et celles qui dont la démonstration doit encore être rédigé:

- Distribution Discrète Uniforme (voir plus bas)
- Distribution de Bernoulli (voir plus bas)
- Distribution Géométrique (voir plus bas)
- Distribution Binomiale (voir plus bas)
- Distribution Binomiale Négative (voir plus bas)
- Distribution Hypergéométrique (voir plus bas)
- Distribution Multinomiale (voir plus bas)
- Distribution de Poisson (voir plus bas)
- Distribution de Gauss-Laplace/Loi Normale (voir plus bas)
- Distribution Log-Normale (voir plus bas)
- Distribution Uniforme continue (voir plus bas)
- Distribution Triangulaire (voir plus bas)
- Distribution de Pareto (voir plus bas)
- Distribution Exponentielle (voir plus bas)
- Distribution de Weibull (cf. chapitre de Génie Industriel)
- Distribution Exponentielle Généralisée (cf. chapitre de Méthodes Numériques)
- Distribution d'Erlang/Erlang-B/Erlang-C (cf. chapitre Techniques De Gestion)
- Distribution de Cauchy (voir plus bas)
- Distribution Bêta (voir plus bas)
- Distribution Gamma (voir plus bas)
- Distribution du Khi-deux (voir plus bas)
- Distribution de Student (voir plus bas)
- Distribution de Fisher-Snedecor (voir plus bas)
- Distribution de Benford (voir plus bas)
- Distribution Logistique (cf. chapitre de Méthodes Numériques)

DISTRIBUTION DISCRÈTE UNIFORME

Si nous admettons qu'il est possible d'associer une probabilité à un événement, nous pouvons concevoir des situations où nous pouvons supposer a priori que tous les événements élémentaires sont équiprobables (c'est-à-dire qu'ils ont même probabilité). Nous utilisons alors le rapport entre le nombre de cas favorables et le nombre de cas possibles pour calculer la probabilité de tous les événements de l'Univers des événements U. Plus généralement si U est un ensemble fini d'événements équiprobables et A une partie de U nous avons sous forme ensembliste (cf. chapitre Théorie Des Ensembles):

Plus communément, soit e un événement pouvant avoir N issues équiprobables possibles. Alors la probabilité d'observer l'issue donnée de l'événement suit une "distribution discrète uniforme" (ou "loi discrète uniforme") donnée par la relation:

Si nous nous mettons dans le cas particulier où

avec

. Nous avons alors (cf. chapitre de Suites et Séries):

Voici un exemple de tracé de la fonction de distribution et respectivement de répartition pour la loi discrète uniforme de paramètres {1,5,8,11,12} (nous voyons que chaque valeur est bien équiprobable):

Figure: 7.8 - Loi discrète uniforme (fonction de distribution et de répartition)

DISTRIBUTION DE BERNOULLI

Si nous avons affaire à une observation binaire alors la probabilité d'un événement reste constante d'une observation à l'autre s'il n'y a pas d'effet mémoire (autrement dit: une somme de variables de Bernoulli, deux à deux indépendantes).

Nous appelons ce genre d'observations où la variable aléatoire a valeurs 0 (faux) ou 1 (vrai), avec probabilité

respectivement p, des "essais de Bernoulli" avec "événements contraires à probabilités contraires".

Ainsi, une variable aléatoire X suit une "distribution de Bernoulli" (ou "loi de Bernoulli") si elle ne peut prendre que les valeurs 0 ou 1, associées aux probabilités q et p de sorte que

et:

L'exemple classique d'un tel processus est le jeu de pile de face ou de tirage avec remise ou pouvant être considéré tel quel (ce dernier cas étant très important dans la pratique industrielle). Il est certainement inutile pour le lecteur de vérifier formellement que la probabilité cumulée est unitaire...

Remarquons que par extension, si nous considérons N événements où nous obtenons dans un ordre particulier k fois une des issues possible (réussite) et N-k l'autre (échec), alors la probabilité d'obtenir une telle série (de k réussites et N-k échecs ordonnés dans un ordre particulier) sera donnée par:

conformément à ce que nous avions obtenu en combinatoire dans le chapitre de Probabilités!

et pour variance (nous utilisons la relation de Huyghens démontrée plus haut):

DISTRIBUTION GÉOMÉTRIQUE

La loi géométrique ou "loi de Pascal" consiste dans une épreuve de type Bernoulli, dont la probabilité de succès est p et celle d'échec

sont constantes, que nous renouvelons de manière indépendante jusqu'au premier succès.

Si nous appelons X la variable aléatoire donnant le rang du premier succès, la probabilité que

est alors (cas particulier de la distribution de Bernoulli):

Or, cette dernière relation s'écrit aussi (car c'est une simple série géométrique):

Effectivement, nous avons démontré dans le chapitre sur les Suites et Séries que:

Ensuite, il suffit de dériver les deux membres de l'égalité par rapport à q et nous obtenons:

Nous avons donc le nombre moyen d'essais X qu'il faut faire pour arriver au premier succès (ou autrement dit: le rang espéré (nombre d'essais espéré) pour voir le premier succès):

Calculons maintenant la variance en rappelant comme à chaque fois que (relation de Huyghens):

Le dernier terme de cette expression est l'équivalent de l'espérance calculée précédemment. Soit:

Pour finir il vient alors la variance du rang espéré du 1er succès (autrement dit: la variance du nombre d'essais espéré avant le 1er succès):

E1. Vous essayez, tard dans la nuit et dans l'obscurité, d'ouvrir une serrure au moyen d'un trousseau de 5 clés, sans porter attention, car vous êtes un peu fatigué (ou un peu éméché...) vous essayez chaque clé. Sachant qu'une seule convient, quelle est la probabilité d'utiliser la bonne clé au k-ème essai?

E2. Tracé de la fonction de distribution et répartition pour la fonction Géométrique de paramètre

Déterminons maintenant la fonction de répartition de la loi Géométrique. Nous partons donc de:

Nous avons alors par définition la probabilité cumulée que l'expérience réussisse dans les n premiers essais:

DISTRIBUTION BINOMIALE

Revenons maintenant à notre épreuve de Bernoulli. Plus généralement, tout N-uplet particulier formé de k succès et de N-k échecs aura pour probabilité (dans le cadre d'un tirage avec remise ou sans remise si la population est grande en première approximation...):

d'être tiré (ou d'apparaître) quel que soit l'ordre d'apparition des échecs et réussites (le lecteur aura peut-être remarqué qu'il s'agit d'une généralisation de la loi géométrique, il suffit de poser k = 1 pour retrouver la loi géométrique).

Mais, nous savons que la combinatoire permet de déterminer le nombre de N-uplets de ce type (le nombre de manières d'ordonner les apparitions d'échecs et de réussites). Le nombre d'arrangements possibles étant, nous l'avons démontré (cf. chapitre Probabilités), donné par le coefficient binomial (notation - pour rappel - non conforme sur ce site Internet à la norme ISO 31-11):

Donc comme la probabilité d'obtenir une série de k succès et N-k échecs particuliers est toujours identique (quel que soit l'ordre) alors il suffit de multiplier la probabilité d'une série particulière par la combinatoire (ceci étant équivalent à faire une somme):

pour avoir la probabilité totale d'obtenir une quelconque de ces séries possibles (puisque chacune est possible).

Écrite autrement ceci donne la "distribution Binomiale" (ou "loi Binomiale") connue aussi sous la forme de la fonction de distribution suivante:

avec un petit n ou grand N (cela importe peu...) et peut être calculée dans la version française de Microsoft Excel 11.8346 à l'aide de la fonction LOI.BINOMIALE( ).

Nous disons parfois que la loi Binomiale est non exhaustive car la taille de la population initiale n'est pas apparente dans l'expression de la loi.

Nous souhaitons tester l'alternateur d'un groupe électrogène. La probabilité de défaillance à la sollicitation de ce matériel est estimée à 1 défaillance pour 1'000 démarrages.

Nous décidons d'effectuer un test de 100 démarrages. La probabilité d'observer 1 panne au cours de ce test est de:

Nous avons bien évidemment pour la fonction de répartition (très utile dans la pratique comme le contrôle de lots de fournisseurs ou la fiabilité!):

Effectivement, nous avons démontré dans le chapitre de Calcul Algébrique le "théorème binomial":

Il vaut mieux utiliser Microsoft Excel 11.8346 (ou tout autre logiciel largement répandu) pour ne pas s'embêter à calculer ce genre de relations en utilisant la fonction CRITERE.LOI.BINOMIALE( ) dans la version française.

donne le nombre moyen de fois que l'on obtiendra l'issue souhaitée de probabilité p après N essais.

L'espérance de la loi binomiale est aussi parfois notée dans la littérature spécialisée sous la forme suivante si r est le nombre potentiel d'issues attendues possibles dans une population de taille n:

Commençons maintenant le (long) calcul de la variance de la loi binomiale dans lequel nous allons utiliser les résultats précédents:

Dans la littérature spécialisée, nous retrouvons souvent la variance écrite sous la forme suivante en notant l'événement attendu r et l'événement non-attendu s:

Voici un exemple de tracé de la fonction de distribution et respectivement de répartition de la loi binomiale

Indiquons que certaines personnes dans les entreprises ramènent le calcul de l'espérance et de l'écart-type à l'unité de N. Nous avons alors:

Sur un échantillon de 100 travailleurs, 25% sont en retard au moins une fois par semaine. L'espérance du nombre de retard est alors:

Pour clore concernant avec la loi binomiale, nous allons développer un résultat qui nous sera indispensable pour construire le test de données appariées de McNemar d'un tableau (carré) de contingence (et comme il est carré il est in extenso dichotomique) que nous étudierons dans le chapitre de Méthodes Numériques.

Nous avons besoin pour ce test de calculer la covariance de deux variables aléatoires binomiales appariées (raison pour laquelle la covariance est non nulle):

Maintenant, vient la difficulté qui est de calculer

. Pour calculer ce terme il n'existe pas à notre connaissance d'autres méthodes que de chercher la loi du couple (parfois on peut contourner cela). Dans le cas présent il s'agit d'une loi multinomiale (plus précisément: trinomiale) qu'il est d'usage d'écrire sous la forme:

que nous noterons temporairement pour la suite sous la forme suivante afin de condenser l'écriture:

Nous avons donc une loi trinomiale car nous cherchons le nombre de fois d'avoir l'événement k, l'événement l et ni l'un ni l'autre (donc le reste du temps).

et pour n valant 3, le résultat sera aussi 1, et ainsi de suite (nous supposerons afin de simplifier... que quelques exemples numériques suffiront au lecteur pour le convaincre de la généralité de cette propriété). Nous avons alors:

Le signe négatif s'expliquant par le fait que si ajoute un individu dans groupe, nous le retirons forcément de l'autre.

DISTRIBUTION BINOMIALE NÉGATIVE

La loi binomiale négative s'applique dans la même situation que la loi binomiale mais elle donne la probabilité d'avoir E échecs avant la R-ème réussite quand la probabilité de succès est p (ou inversement la probabilité d'avoir R réussites avant le E-ème échec quand la probabilité d'échec est p).

Introduisons cette distribution par l'exemple. Considérons pour cela les probabilités suivantes:

Imaginons que nous ayons fait 10 essais et que nous voulions nous arrêter à la troisième réussite et que le 10-ème essai est la troisième réussite! Nous allons noter cela:

Nous avons donc 7 échecs et 3 réussites. Dans le cadre d'une expérience où les tirages sont indépendants (ou pouvant être considérés comme tel...), la probabilité que nous avions d'obtenir ce résultat particulier est alors:

Mais l'ordre des succès et échecs dans la partie entre crochets n'a aucune importance. Donc comme nous avons 2 succès parmi 9 dans les crochets il vient que la probabilité d'obtenir le même résultat indépendamment de l'ordre est alors en utilisant la combinatoire:

ce qui correspond donc à la probabilité d'avoir 7 échecs avant la 3ème réussite (ou autrement vu: 3 réussites après 10 essais). Ce qui s'écrit avec Microsoft Excel 14.0.6123 ou ultérieur en français (7+3=10 essais, 7 échecs dont 3 réussites):

Généralisons l'écriture antéprécédente notant k le nombre d'échecs, N le nombre total d'essais et p la probabilité d'une réussite:

Il y a cependant plusieurs écritures possibles car la relation précédente n'est pas très intuitive à mettre en pratique comme l'aura peut-être remarqué le lecteur. Ainsi, si nous notons k comme étant le nombre de succès et non le nombre d'échecs, nous avons alors (écriture la plus courante selon moi parmi d'autres équivalentes) la probabilité suivante d'avoir un N-k réussites avant d'avoir un nombre k d'échecs avec un probabilité d'échec p (ou d'échecs avant d'avoir k réussites... c'est symétrique!):

donc la comparaison avec la formulation de la loi binomiale démontrée plus haut est alors peut-être plus évidente!

Il est cependant plus courant de noter la relation précédente en faisant disparaître N car pour l'instant l'écriture n'est toujours pas très claire. Pour cela, nous notons R le nombre de réussites, E le nombre d'échecs, p la probabilité d'une réussite et il vient alors la probabilité d'avoir R réussites après E échecs (c'est beaucoup plus clair...):

Nous trouvons aussi parfois cette dernière relations sous la forme suivante en utilisant explicitement le coefficient binomial:

La probabilité cumulée que nous ayons au moins R réussites avant le E-ème échec vient immédiatement:

E1. Un contrôle de qualité long terme nous a permis de calculer l'estimateur de proportion p des pièces non-conformes comme valant 2% à la sortie d'une ligne de production. Nous souhaiterions savoir la probabilité cumulée d'avoir 200 pièces bonnes avant que la 3ème pièce défectueuse apparaisse. Avec Microsoft Excel 14.0.6123 ou ultérieur en français il vient en utilisant la loi binomiale négative:

E2. Pour comparer avec la loi binomiale, demandons-nous quelle est la probabilité cumulée de tirer 198 pièces non-défectueuses parmi 201 avec Microsoft Excel 14.0.6123 ou ultérieur en français:

nous voyons donc que la différence est faible. Au fait la différence entre les deux lois est dans la pratique quasiment toujours tellement faible que nous n'utilisons alors que la loi binomiale (mais il faut quand même être prudent!).

Comme à l'habitude, déterminons maintenant la variance et l'espérance de cette loi. Commençons par l'espérance d'avoir R réussites lors de l'apparition de E-ème échec sachant que la probabilité d'avoir un échec est p. Pour cela nous allons utiliser une astuce très simple et géniale (tout l'art était d'y penser...). Si nous reprenons notre exemple de départ:

Nous remarquons alors que la troisième réussite R de la première écriture peut être décomposée en la somme de trois variables aléatoires géométriques telle que:

Avec dans le cas du présent exemple particulier

correspondant au fait à

. Donc en toute généralité la somme de n variables aléatoires géométriques donne toujours une loi binomiale négative si la probabilité p est égale pour chaque variable géométrique! Bref... comme nous avons démontré l'expression de l'espérance et la variance de la loi Géométrique comme étant (donnant donc l'espérance du rang du premier échec):

puisque les variables aléatoires sont de même paramètres et indépendantes il vient alors pour la loi binomiale négative l'esprance du rang d'avoir le E-ième échec:

Donc l'espérance et la variance du rang (correspondant donc bien évidemment au nombre d'essais N ou autrement vu: à l'espérance du nombre de réussites en faisant la simple soustraction X - E) d'avoir le E-ième échec est donc pour résumer:

Ainsi, en posant E = 1, nous retombons sur l'espérance et la variance de la loi géométrique.

Maintenant, notons Y la variable aléatoire représentant le nombre d'essais avant d'avoir la R-ième réussite. Nous avons alors les expressions suivantes de la variance et de l'espérance qui sont très courantes dans la littérature (il s'agit des expressions de l'espérance et de la variance telles que nous pouvons les trouver pour la loi binomiale négative sur Wikipédia par exemple):

Quel est le nombre de tirages espérés auquel nous pouvons nous attendre lorsque nous tomberons sur la troisième pièce non-conforme, sachant que la probabilité d'une pièce non-conforme est de 2%?

Ci-dessous le lecteur trouver comme à l'habitude un exemple de tracé de la fonction de distribution et répartition pour la fonction binomiale négative de paramètres

basé sur l'exemple du début mais avec comme seule différence d'avoir pris comme probabilité de réussite de 60% au lieu de 20%.

Ainsi, il y a 21.6% de probabilité d'avoir la 3ème réussite au 3ème essai successif (donc 0 essai de plus que le nombre de réussites), 25.92% de probabilité d'avoir la 3ème réussite au 4ème essai successif (donc 1 essai de plus que le nombre de réussites), 20.7% de probabilité d'avoir la 3ème réussite au 5ème essai successif (donc 2 essais de plus que le nombre de réussites) et ainsi de suite...:

Figure: 7.12 - Loi binomiale négative (fonction de distribution et de répartition)

Les distributions ci-dessus sont tronquées à 9 (correspondant donc à 12 essais) mais continue théoriquement à l'infini. Ce qui différencie particulièrement les lois binomiale et géométrique de la loi binomiale négative sont les queues de la distribution.

DISTRIBUTION HYPERGÉOMÉTRIQUE

Nous considérons pour approcher cette fonction un exemple simple (mais guère intéressant dans la pratique) qui est celui d'une urne contenant n boules dont m sont noires et les autres m' blanches (pour plusieurs exemples concrets utilisés dans l'industrie se reporter au chapitre de Génie Industriel ou de Méthodes Numériques). Nous tirons successivement, et sans les remettre dans l'urne, p boules. La question est de trouver la probabilité que parmi ces p boules, il y en ait k qui soient noires (dans cet énoncé l'ordre du tirage ne nous intéresse donc pas!).

Nous parlons souvent de "tirage exhaustif" avec la loi hypergéométrique car contrairement à la loi binomiale, la taille du lot qui sert de base au tirage va apparaître dans la loi.

Les p boules peuvent être choisies parmi les n boules de

façons (représentant donc le nombre de tirages différents possibles) avec pour rappel (cf. chapitre de Probabilités):

Les k boules noires peuvent être choisies parmi les m noires de

façons. Les p-k boules blanches peuvent être elles choisies de

façons. Il y a donc

tirages qui donnent k boules noires et p-k boules blanches.

La probabilité recherchée vaut donc (nous en verrons une autre formulation possible dans le chapitre de Génie Industriel):

et est dite suivre une "distribution Hypergéométrique" (ou "loi Hypergéométrique") et peut être obtenue heureusement de manière directe dans Microsoft Excel 11.8346 avec la fonction LOI.HYPERGEOMETRIQUE( ).

E1. Nous souhaitons mettre en production un petit développement informatique de 10'000 lignes de code (n). Le retour d'expérience montre que la probabilité de défaillance est de 1 bug pour 1'000 lignes de code (soit 0.1% de 10'000 lignes) ce qui correspond à valeur de m.

Nous testons environ 50% des fonctionnalités du logiciel au hasard avant l'envoi au client (soit l'équivalent de 5'000 lignes de code correspondant à p). La probabilité d'observer 5 bugs (k) est avec Microsoft Excel 11.8346:

= LOI.HYPERGEOMETRIQUE(k;p;m;n)
= LOI.HYPERGEOMETRIQUE(5;5000;0.1%*10000;10000)=24.62%

E2. Dans une petite production unique d'un lot de 1'000 pièces nous savons que 30% en moyenne sont mauvaises à cause de la complexité des pièces par retour d'expérience d'une fabrication précédente similaire. Nous savons qu'un client va tirer 20 pièces au hasard pour décider d'accepter ou de rejeter le lot. Il ne rejettera pas le lot s'il trouve zéro pièce défectueuse parmi ces 20. Quelle est la probabilité d'en avoir exactement 0 de défectueuse?

et comme on exige un tirage nul, le calcul de la loi hypergéométrique se simplifie en:

Il n'est pas interdit de faire le calcul direct de l'espérance et de la variance de la distribution hypergéométrique mais le lecteur pourra sans trop de peine imaginer que ce calcul va être... relativement indigeste. Alors nous pouvons utiliser une méthode indirecte qui de plus est intéressante!

D'abord le lecteur aura peut-être, même certainement, remarqué qu'au fait l'expérience de la loi hypergéométrique est une série d'essais de Bernoulli (sans remise bien entendu!).

Alors, nous allons tricher en utilisant dans un premier temps la propriété de linéarité de l'espérance. Définissons pour cela une nouvelle variable correspondant implicitement au fait à l'expérience de la distribution hypergéométrique (k essais de Bernoulli à la suite!):

où

représente la réussite d'obtenir au i-ème tirage une boule noire (soit 0 ou 1). Or, nous savons que pour tout i la variable aléatoire

suit une distribution de Bernoulli pour laquelle nous avons démontré lors de notre étude de la loi de Bernoulli que

Dès lors, de par la propriété de linéarité de l'espérance nous avons (attention ici p n'est plus le nombre de boules mais la probabilité associée à une issue attendue!):

Dans l'essai de Bernoulli, p est donc la probabilité d'obtenir l'élément recherché (pour rappel...). Dans la loi hypergéométrique ce qui nous intéresse est la probabilité d'avoir une boule noire (qui sont en quantité m, avec donc m' boules blanches) par rapport à la quantité totale de boules n. Et le rapport nous donne évidemment cette probabilité. Ainsi, nous avons:

où k est le nombre de tirages (attention à ne pas confondre avec la notation de l'énoncé initial où il était noté par la variable p!!!). Cette espérance donne donc le nombre moyen de boules noires lors d'un tirage de k boules parmi n, dont m sont connues comme étant noires. Le lecteur aura remarqué que l'espérance de la loi hypergéométrique est donc la même que la loi binomiale!

Pour déterminer la variance, nous allons utiliser la variance de la loi de Bernoulli et la relation suivante démontrée lors de l'introduction de l'espérance et de la covariance au début de ce chapitre:

Le calcul de

nécessite lui une bonne compréhension des probabilités (ce sera un bon rappel!).

L'espérance

est donnée (implicitement) par la somme pondérée des probabilités que deux événements aient lieu en même temps comme nous le savons. Or, nos événements sont binaires: soit c'est une boule noire (1) soit c'est une boule blanche (0). Donc tous les termes de la somme n'ayant pas deux boules noires consécutivement seront nuls!

Le problème est alors de calculer la probabilité d'avoir deux boules noires consécutives et celle-ci s'écrit donc:

termes puisqu'il correspond au nombre de façons qu'il y a de choisir le couple (i, j) avec

Dans la littérature spécialisée, nous retrouvons souvent la variance écrite sous la forme suivante en notant comme pour lors de notre étude de la loi Normale l'événement attendu r et l'événement non-attendu s:

avec donc l = n - k. Cette dernière forme d'écriture nous sera très utile dans le chapitre de Méthodes Numériques lors de notre étude du test de Haenzel-Mantel.

qu'il s'agit du même écart-type que la loi binomiale, à la différence d'un facteur qui est noté:

que l'on retrouve assez souvent en statistiques et qui est appelé "facteur de correction de population" ou en anglais "finite population correction factor". Certain on tendance à faire l'approximation suivante quand n est assez grand:

Voici un exemple de tracé de la fonction de distribution et répartition pour la distribution Hypergéométrique de paramètres

Figure: 7.13 - Loi hypergéométrique (fonction de distribution et de répartition)

Démontrons que la loi Hypergéométrique tend vers une loi binomiale puisqu'il en est fait usage de nombreuses fois dans différents chapitres du site (et particulièrement le chapitre de Génie Industriel).

Pour le troisième terme un développement identique en tous points au précédent permet d'obtenir:

Changeons d'écriture en posant p (le nombre d'individus tirés) comme étant N. Il vient alors:

Faisons un autre changement d'écriture en notant b les boules noires (black) et w les boules blanches (white). Il vient alors:

Enfin, notons p la proportion de boules noires et q celle de boules blanches dans le lot n. Il vient alors:

Nous retrouvons donc bien la loi binomiale!! En pratique, il est courant d'approximer la loi hypergéométrique par une loi binomiale dès que le rapport nombre d'individus tirés sur le nombre total d'individus est inférieur à 10% (c'est-à-dire lorsque l'échantillon est 10 fois plus petit que la population). Il s'ensuit que la loi hypergéométrique tend aussi (comme nous le démontrerons plus loin) vers une loi Normale lorsque la population tend vers l'infini et que l'échantillon est petit.

Dans la pratique, des simulations de Monte-Carlo avec des tests d'ajustements (voir plus loin dans ce chapitre), ont montré qu'une loi hypergéométrique pouvait être approximée par une loi Normale (cas très important dans les tests statistiques de contingence que nous étudierons dans le chapitre de Méthodes Numériques) si les trois conditions suivantes étaient remplies en même temps:

DISTRIBUTION MULTINOMIALE

La loi multinomiale (appelée ainsi car elle fait intervenir plusieurs fois le coefficient binomial) est une loi applicable à n événements distinguables, chacun ayant une probabilité donnée, qui surviennent une ou plusieurs fois et ce de façon non nécessairement ordonné. Il s'agit d'un cas fréquent dans les études marketing et qui nous sera utile pour construire le test statistique de McNemar beaucoup plus loin (cf. chapitre de Méthodes Numériques). Nous retrouvons également cette loi en finance quantitative (cf. chapitre d'Économie).

Plus techniquement, considérons l'espace des événements

muni d'une probabilité

. Nous tirons n fois de suite avec remise un élément de

avec la probabilité

. Nous allons chercher quelle est la probabilité d'obtenir de manière non nécessairement ordonnée l'événement 1,

fois, l'événement 2,

fois et ce sur une suite d'un tirage de n éléments.

Nous avons vu dans le chapitre de Probabilités, que si nous prenons un ensemble d'événements ayant plusieurs issues, alors les différentes combinaisons de suites que nous pouvons obtenir en prenant p éléments choisis parmi n est:

façons différentes d'obtenir

fois un certain événement. Soit une probabilité associée de:

Maintenant, intervient la particularité de la loi multinomiale!: il n'y a pas d'échecs contrairement à la loi binomiale. Chaque "pseudo-échec" peut être considéré comme un sous tirage de

parmi les

éléments restants.

s'écrira sur l'ensemble de l'expérience si nous considérons un cas particulier limité à deux types d'événements:

qui donne le nombre de façons différentes d'obtenir

fois un second événement puisque dans l'ensemble de la suite de n éléments déjà

ont été tirés ce qui fait qu'il n'en reste plus que

sur lesquels nous pouvons obtenir les

voulus.

Ces relations nous montrent donc qu'il s'agit d'une situation où chaque probabilité d'événement est considérée comme une sous loi binomiale (d'où son nom aussi...).

Ainsi, par récurrence nous avons la probabilité P recherchée appelée "distribution Multinomiale" (ou "loi Multinomiale") et donnée par:

appelé "coefficient multinomial" est disponible sous le nom de la fonction MULTINOMIALE( ) dans la version française. Dans la littérature nous trouvons également ce terme parfois sous les formes respectives suivantes:

Démontrons que la loi multinomiale est bien une loi de probabilité (car nous pourrions en douter...). Si c'est bien le cas, la somme des probabilités doit être comme nous le savons, égale à l'unité.

Rappelons que dans le chapitre de Calcul Algébrique nous avons démontré que (théorème binomial):

Cette dernière relation (qui est un cas à deux termes du "théorème multinomial") va nous être utile pour démontrer que la loi multinomiale est bien une loi de probabilité. Nous prenons donc le cas particulier avec deux groupes de tirage:

Pour vérifier cela nous utilisons le théorème multinomial montré précédemment:

Or, comme par construction de la loi multinomiale la somme des probabilités est unitaire, nous avons bien:

E1. Nous lançons un dé non-pipé 12 fois. Quelle est la probabilité que les six faces apparaissent le même nombre de fois (mais pas nécessairement consécutivement!) soit deux fois pour chaque:

E2. Nous lançons un dé non-pipé 12 fois. Quelle est la probabilité qu'une seule et unique face apparaisse 12 fois (donc que le "1" apparaisse 12 fois de suite, ou le "2", ou le "3", etc.):

Nous retrouvons donc avec ce dernier exemple un résultat connu de la binomiale.

DISTRIBUTION DE POISSON

Pour certains événements forts rares, la probabilité p est très faible et tend vers zéro. Toutefois la valeur moyenne

tend vers une valeur fixe lorsque n tend vers l'infini.

Nous partirons donc d'une distribution binomiale de moyenne

que nous supposerons finie lorsque n tend vers l'infini.

En posant

(où m est temporairement la nouvelle notation pour la moyenne selon

), cette expression peut s'écrire:

Nous reconnaissons que, lorsque n tend vers l'infini, le deuxième facteur du produit a pour limite

(cf. chapitre d'Analyse Fonctionnelle). Quant au troisième facteur, puisque nous nous intéressons aux petites valeurs de k (la probabilité de réussite est très faible), sa limite pour n tendant vers l'infini vaut 1.

Cette technique de passage à la limite est parfois appelée dans ce contexte: "théorème limite de Poisson".

Nous obtenons ainsi la "distribution de Poisson" (ou "loi de Poisson"), appelée également parfois "loi des événements rares", donnée donc par:

qui peut être obtenue dans Microsoft Excel 11.8346 avec la fonction LOI.POISSON( ) et qui dans la pratique et la littérature spécialisée est souvent notrée par la lettre u.

Il s'agit bien d'une loi de probabilité puisqu'en utilisant les séries de Taylor (cf. chapitre de Suites Et Séries), nous montrons que la somme des probabilités cumulées est bien:

Voici un exemple de tracé de la fonction de distribution et répartition pour la distribution de Poisson de paramètre

Cette distribution est importante car elle décrit beaucoup de processus dont la probabilité est petite et constante. Elle est souvent utilisée dans la théorie des files d'attente (temps d'attente), test d'acceptabilité et fiabilité et contrôles statistiques de qualité. Entre autres, elle s'applique aux processus tels que l'émission des quanta de lumière par des atomes excités, le nombre de globules rouges observés au microscope, le nombre d'appels arrivant à une centrale téléphonique. La distribution de Poisson est valable pour de nombreuses observations faites en physique nucléaire ou corpusculaire.

L'espérance (moyenne) de la distribution de Poisson est (nous utilisons la série de Taylor de l'exponentielle):

Ce résultat peut paraître déroutant.... la moyenne s'exprime par la moyenne??? Oui il ne faut simplement pas oublier que celle-ci est donnée au début par:

La variance de la fonction de distribution de Poisson est quant à elle donnée par (en utilisant à nouveau les séries de Taylor):

Le fait important que pour la loi de Poisson nous ayons la variance qui soit égale à l'espérance est appelé "propriété d'équidispersion de la de Poisson". Il s'agit d'une propriété souvent utilisée dans la pratique comme indicateur pour identifier si des données (à support discret) sont distribuées selon une loi de Poisson.

Les lois théoriques de distributions statistiques sont établies en supposant la réalisation d'un nombre infini de mesures. Il est évident que nous ne pouvons en effectuer qu'un nombre fini N. D'où la nécessité d'établir des correspondances entre les valeurs utiles théoriques et expérimentales. Pour ces dernières nous n'obtenons évidemment qu'une approximation dont la validité est toutefois souvent admise comme suffisante.

Maintenant démontrons une propriété importante de la loi Poisson dans le domaine de l'ingénierie que nous appelons la "stabilité par l'addition". L'idée est la suivante:

Soit deux variables aléatoires indépendantes X et Y de loi de Poisson de paramètre respectif

. Nous voulons vérifier que leur somme est aussi une loi de Poisson:

et donc la loi de Poisson est stable par l'addition. Donc toute loi de Poisson dont le paramètre est connu est in extenso indéfiniment divisable en une quantité finie ou infinie de lois de Poisson indépendante qui se somment.

DISTRIBUTION DE GAUSS-LAPLACE/LOI NORMALE

Cette caractéristique est la plus importante fonction de distribution en statistiques suite au résultat d'un théorème connu appelé "théorème central limite" qui comme nous le verrons, permet de démontrer (entre autres) que la somme de toute suite de variables aléatoires indépendantes de même loi ayant une espérance et un écart-type fini converge vers une distribution de Gauss-Laplace (loi Normale).

Il est donc très important de focaliser particulièrement son attention sur les développements qui vont être faits ici!

Partons d'une distribution binomiale et faisons tendre le nombre n d'épreuves vers l'infini. Si p est fixé au départ, la moyenne

tend également vers l'infini, de plus l'écart-type

tend également vers l'infini.

Si nous voulons calculer la limite de la distribution Binomiale, il s'agira donc de faire un changement d'origine qui stabilise la moyenne, en 0 par exemple, et un changement d'unité qui stabilise l'écart-type, à 1 par exemple.

Voyons tout d'abord comment varie

en fonction de k (nombre de réussites) et calculons la différence:

Nous en concluons que

est une fonction croissante de k, tant que

est positif (pour n, p et q fixés). Pour le voir il suffit de prendre quelques valeurs (du membre de droite de l'égalité) ou d'observer la distribution graphique de la distribution Binomiale en se souvenant bien que:

Comme

il est par conséquent évident que la valeur de k voisine de l'espérance de la loi Binomiale

constitue le maxima de

D'autre part la différence

est le taux d'accroissement de la fonction

. Nous pouvons alors écrire:

Définissons maintenant une nouvelle variable aléatoire telle que sa moyenne soit nulle (variations négligeables) et son écart-type unitaire (une variable centrée-réduite en d'autres termes). Nous avons alors:

Notons F(x) l'expression de

calculée en fonction de la nouvelle variable aléatoire de moyenne nulle et d'écart-type unitaire dont nous recherchons l'expression quand n tend vers l'infini.

Afin de simplifier l'étude de cette relation quand n tend vers l'infini et k vers l'espérance

, multiplions des deux côtés par

Et maintenant réécrivons le terme de gauche de la relation antéprécédente. Il vient:

Après un passage à la limite pour n tendant vers l'infini nous avons dans un premier temps pour le dénominateur du deuxième terme de la relation antéprécédente:

et dans un second temps, tenant compte du fait que les valeurs de k considérées se trouvent alors au voisinage de l'espérance np, nous obtenons:

où F(x) représentera (maladroitement) pour les quelques lignes qui vont suivre, la fonction de densité lorsque n tend vers l'infini.

et en intégrant les deux membres de cette égalité nous obtenons (cf. chapitre de Calcul Différentiel Et Intégral):

qui représente la somme de toutes les probabilités, qui doit valoir 1. Nous pouvons montrer pour cela que nous devons avoir:

puisque

est une fonction paire (cf. chapitre d'Analyse Fonctionnelle). Écrivons maintenant le carré de l'intégrale de la manière suivante:

et faisons un changement de variable en passant en coordonnées polaires, dès lors nous faisons aussi usage du Jacobien dans ces mêmes coordonnées (cf. chapitre de Calcul Différentiel Et Intégral):

Nous obtenons donc la "loi Normale centrée réduite" notée sous forme de fonction de densité de probabilité (la notation avec le F majuscule peut malheureusement porter à confusion dans le cadre du présent développement avec le fonction de répartition... désolé...):

qui peut être calculée dans la version française Microsoft Excel 11.8346 avec la fonction LOI.NORMALE.STANDARD( ).

Pour information, une variable suivant une loi Normale centrée réduite est très souvent par tradition notée Z (pour "Zentriert" en allemand).

nous obtenons donc la "distribution Gauss-Laplace" (ou "loi de Gauss-Laplace") ou également appelée "loi Normale" donnée sous forme de densité de probabilité par:

ou plus couramment (ainsi les deux termes de la parenthèse ont les mêmes unités):

Elle peut être calculée dans la version française de Microsoft Excel 11.8346 avec la fonction LOI.NORMALE( ).

La probabilité cumulée (fonction de répartition) de valoir une certaine valeur k étant bien évidemment donnée par:

Voici un exemple de tracé de la fonction de distribution et répartition pour la distribution Normale de paramètres

qui est dès lors la loi Normale centrée réduite:

Figure: 7.16 - Loi Normale Centrée Réduite (fonction de distribution et de répartition)

Cette loi régit sous des conditions très générales, et souvent rencontrées, beaucoup de phénomènes aléatoires. Elle est par ailleurs symétrique par rapport à la moyenne

(c'est important de s'en souvenir).

Montrons maintenant que

représente bien l'espérance mathématique (ou la moyenne) de x (c'est un peu bête mais on peut quand même vérifier...):

Remarques:

R1. Le lecteur pourrait trouver cela déroutant dans un premier temps que le paramètre d'une distribution soit un des résultats que nous cherchons de la distribution (comme cela était le cas pour la loi de Poisson). Ce qui dérange est la mise en pratique d'une telle chose. Au fait, tout s'éclairera lorsque nous étudierons plus loin dans ce chapitre les concepts "d'estimateurs de vraisemblance".

R2. Indiquons que dans la pratique (finance, qualité, assurance, etc.) il est fréquent de devoir calculer l'espérance uniquement pour des valeurs positives de la variable aléatoire qui est définie alors naturellement comme étant "l'espérance positive" et donnée par:

equation (7.404)

Nous en verrons un exemple pratique dans le chapitre d'Économie lors de notre étude du modèle théorique de la spéculation de Louis Bachelier.

Montrons aussi (...) que

représente bien l'écart-type de X (en d'autres termes de montrer que

) et pour cela rappelons que nous avions démontré que (relation de Huyghens):

Il reste donc à calculer la première intégrale. Pour cela, procédons par une intégration par parties (cf. chapitre de Calcul Différentiel et Intégral):

Une signification supplémentaire de l'écart-type dans la loi de Gauss-Laplace est une mesure de la largeur de la distribution telle que (cela ne peut se vérifier qu'à l'aide d'intégration à l'aide de méthodes numériques) que toute moyenne et pour tout écart-type non nul nous avons:

La largeur de l'intervalle a une très grande importance dans l'interprétation des incertitudes d'une mesure. La présentation d'un résultat comme

signifie que la valeur moyenne a environ 68.3% de chance (probabilité) de se trouver entre les limites de

, ou qu'elle a environ 95.4% de se trouver entre

etc.

Remarque: Ce concept est beaucoup utilisé en gestion de la qualité en entreprise particulièrement avec le concept industriel anglo-saxon Six Sigma (cf. chapitre de Génie Industriel) qui impose une maîtrise de 6

autour de chaque côté (!) de la moyenne des côtés des pièces fabriquées (ou tout autre sujet dont on mesure la déviation).

Niveau de qualité Sigma	Taux de non-défection assuré en %	Taux de défection en parties par million
1	68.26894	317'311
2	95.4499	45'500
3	99.73002	2'700
4	99.99366	63.4
5	99.999943	0.57
6	99.9999998	0.002

Tableau: 7.8 - Niveau de qualité Sigma avec taux de défection/non-défection

La deuxième colonne du tableau peut facilement être obtenue avec Maple 4.00b (ou aussi avec le tableur de Microsoft). Par exemple pour la première ligne:

>S:=evalf(int(1/sqrt(2*Pi)*exp(-x^2/2),x=-1..1));

et la première ligne de la troisième colonne par:

>(1-S)*1E6;

Si la loi Normale était décentrée, il suffirait alors d'écrire pour la deuxième colonne:

>S:=evalf(int(1/sqrt(2*Pi)*exp(-(x-mu)^2/2),x=-1..1));

et ainsi de suite pour tout écart-type et toute moyenne on retombera sur les mêmes intervalles!!!

La loi de Gauss-Laplace n'est par ailleurs pas qu'un outil d'analyse de données mais également de génération de données. Effectivement, cette loi est une des plus importantes dans le monde des multinationales qui recourent aux outils statistiques pour la gestion du risque, la gestion de projets et la simulation lorsqu'un grand nombre de variables aléatoires sont en jeu. Les meilleurs exemples d'applications en étant les logiciels CrystalBall ou @Risk de Palisade (ce dernier étant mon préféré...).

Dans ce cadre d'application (gestion de projets), il est par ailleurs très souvent fait usage de la somme (durée des tâches) ou le produit de variables aléatoires (facteur d'incertitude du client) suivant des lois de Gauss-Laplace. Voyons comment cela se calcule:

SOMME DE DEUX VARIABLES ALÉATOIRES NORMALES

Soient X, Y deux variables aléatoires indépendantes. Supposons que X suit la loi

et que Y suit la loi

. Alors, la variable aléatoire

aura une densité égale au produit de convolution de

. C'est-à-dire:

ce qui équivaut à faire le produit conjoint (cf. chapitre de Probabilités) des probabilités d'apparition des deux variables continues (se rappeler le même genre de calcul sous forme discrète!).

Nous reconnaissons l'expression de la loi de Gauss-Laplace de moyenne

et d'écart type

Le fait que la somme de deux lois Normales donne toujours une loi Normale est ce que nous nommons en statistiques la "stabilité par la somme" de la loi de Gauss-Laplace. Nous retrouverons ce type de propriétés pour d'autres lois que nous étudierons plus loin.

Donc au même titre que loi de Poisson, toute loi Normale dont les paramètres sont connus est in extenso indéfiniment divisable en une quantité finie ou infinie de lois Normale indépendantes qui se somment telles que:

PRODUIT DE DEUX VARIABLES ALÉATOIRES NORMALES

Soient X, Y deux variables aléatoires indépendantes réelles. Nous désignerons par

les densités correspondantes et nous cherchons à déterminer la densité de la variable

(cas très important et particulièrement en ingénierie).

Notons f la fonction de densité du couple (X, Y). Vu que X, Y sont indépendantes (cf. chapitre de Probabilités):

D peut se réécrire comme union disjointe (nous faisons cette opération pour anticiper lors du futur changement de variables une division par zéro):

La dernière intégrale vaut zéro car

est de mesure (épaisseur) nulle pour l'intégrale selon x.

Le jacobien de la transformation (cf. chapitre de Calcul Différentiel Et Intégral) est:

Ce qui est un peu triste c'est que dans le cas d'une loi de Gauss-Laplace (loi Normale), cette intégrale ne peut être calculée simplement que numériquement... il faut alors faire appel à des méthodes d'intégration du type Monte-Carlo (cf. chapitre de Méthodes Numériques).

D'après quelques recherches faites sur Internet cependant, mais sans certitude, cette intégrale pourrait être calculée et donnerait une nouvelle loi appelée "loi de Bessel".

DISTRIBUTION NORMALE BIVARIÉE

Si deux variables aléatoires Normalement distribuées sont indépendantes, nous savons que la probabilité jointe est égale au produit des probabilités. Nous avons alors:

Vient maintenant une approche que nous retrouverons souvent dans les développements à suivre: pour généraliser des modèles en algèbre simple, il faut penser matriciel! Dès lors on se retrouve avec deux vecteurs faisant intervenir un produit scalaire:

Mais nous pouvons faire encore mieux car pour l'instant il n'y a aucune plus value à cette écriture! Effectivement l'idée subtile vient à faire intervenir le déterminant d'une matrice (cf. chapitre d'Algèbre Linéaire) et l'inverse de cette même matrice dans la relation précédente:

Nous retrouvons donc un cas particulier de la matrice des variances-covariances. Dans le domaine de la loi Normale bivariée est il est d'usage d'écrire cette dernière relation sous la forme suivante dans le cas bivarié:

Maintenant considérons le cas important en ingénierie en revenant à l'écriture suivante:

et en nous intéressant aux iso-lignes tels que pour tout couple de valeurs des deux variables aléatoires, nous ayons:

En faisant quelques manipulations algébriques très élémentaires, nous obtenons:

Nous reconnaissons ici l'équation analytique d'une ellipse (cf. chapitre de Géométrique Analytique)! Il est alors aisé de déterminer le petit ou grand axe de l'ellipse (ce qui est très utilisé dans le cartes de contrôle bivariées dans le domaine du Génie Industriel). Mais il ne faut pas oublier que cette équation n'est valable que dans le cas particulier ou la corrélation est nulle!

la matrice des variances-covariances était nulle partout sauf sur la diagonale, ce qui impliquait in extenso l'indépendance des deux variables aléatoires. Nous pouvons évidemment deviner que la généralisation consiste à dire que la matrice des variances-covariances n'est pas non-nulle que dans la diagonale et alors les deux variables aléatoires sont corrélées. Dès lors, les iso-lignes deviennent par exemple avec les valeurs equation

Figure: 7.20 - Plot des iscolines la fonction de denstié Normale bivariée (cas dépendant)

Donc la corrélation fait pivoter l'axe des ellipses! Remarquons que nous avons dès lors:

Rappelons que nous avons vu lors de notre étude du coefficient de corrélation que (bon normalement.... la notation R pour la corrélation est prise que si les variances sont estimées mais comme c'est la notation la plus courante dans la pratique nous la garderons):

et l'exposant de l'exponentielle de la Normale bivariée prend alors une forme que nous retrouvons très souvent dans la littérature spécialisée:

Ainsi, la fonction de densité de la loi Normale centrée réduite bivariée s'écrit:

Ainsi, nous pouvons voir qu'une distribution Normale bivariée centrée réduite peut être construite par la multiplication de deux lois normales centrées réduites et par la multiplication d'un terme dépendant principalement du paramètre de corrélation. Ce dernier terme contient la nature de la dépendance des deux variables aléatoires et permet de coupler les fonctions marginales (les deux distributions de probabilités Normales centrées réduites marginales) afin d'obtenir la fonction (distribution) jointe Normale bivarieé.

Si jamais (cela peut-être très utile dans la pratique), voici le code Maple 4.00b pour tracer une fonction bivariée Normale (en reprenant le dernier exemple):

>f:=(x,y,rho,mu1,mu2,sigma1,sigma2)->(1/(2*Pi*sqrt(sigma1^2*sigma2^2*(1-rho^2))))*exp((-1/(2*(1-rho^2)))*(((x-mu1)/sigma1)^2+((y-mu2)/sigma2)^2-2*rho*((x-mu1)/sigma1)*((y-mu2)/sigma2)));
> plot3d(f(x,y,5/sqrt(10*5),3,2,sqrt(10),sqrt(5)),x=-30..30,y=-30..30,grid=[40,40]);

>with(plots):
>contourplot(f(x,y,5/sqrt(10*5),3,2,sqrt(10),sqrt(5)),x=-30..30,y=-30..30,grid=[40,40]);

et nous pouvons contrôler qu'il s'agit bien d'une fonction de densité de probabilité:

>int(int(f(x,y,5/sqrt(10*5),3,2,sqrt(10),sqrt(5)),x=-infinity...+infinity),y=-infinity...+infinity);

DISTRIBUTION NORMALE CENTRÉE RÉDUITE

La distribution de Gauss-Laplace n'est pas tabulée puisqu'il faudrait autant de tables numériques que de valeurs possibles pour la moyenne

et l'écart-type

(qui sont donc des paramètres de la distribution comme nous l'avons vu).

C'est pourquoi, en opérant un changement de variable, la loi Normale devient la "loi Normale centrée réduite" où:

1. "Centrée" signifie soustraire la moyenne

(la fonction de distribution a alors pour axe de symétrie l'axe des ordonnées).

2. "Réduite" signifie, diviser par l'écart-type

(la fonction de distribution a alors une variance unitaire).

Par ce changement de variable, la variable k est remplacée par la variable aléatoire centrée réduite:

Si la variable k a pour moyenne

et pour écart- type

alors la variable

a pour moyenne 0 et pour écart-type 1 (cette dernière étant le plus souvent notée Z).

qui n'est d'autre que l'expression de la loi Normale centrée réduite souvent notée N(0,1) que nous retrouverons très fréquemment dans les chapitres relatifs à la physique, la finance, la gestion et l'ingénierie!

DROITE DE HENRY

Souvent, dans les entreprises c'est la loi de Gauss-Laplace (Normale) qui est analysée mais des logiciels courants et facilement accessibles comme Microsoft Excel sont incapables de vérifier que les données mesurées suivent une loi Normale lorsque nous faisons de l'analyse fréquentielle (aucun outil intégré par défaut ne permet de le faire) et que nous n'avons pas les données d'origines non groupées.

L'astuce consiste alors à utiliser la variable centrée réduite qui se construit comme nous l'avons démontré plus haut avec la relation suivante:

L'idée de la droite d'Henry est alors d'utiliser la relation linéaire entre k et k* donnée par l'équation de la droite:

et qui peut être tracée pour déterminer la moyenne et l'écart-type de la loi Normale.

Supposons que nous ayons l'analyse fréquentielle suivante de 10'000 tickets de caisse dans un supermarché:

Montant des tickets	Nombre de tickets	Nombre cumulé de tickets	Fréquences relatives cumulées
[0,50[	668	668	0.068
[50,100[	919	1'587	0.1587
[100,150[	1'498	3'085	0.3085
[150,200[	1'915	5'000	0.5000
[200,250[	1'915	6'915	0.6915
[250,300[	1'498	8'413	0.8413
[300,350[	919	9'332	0.9332
[350,400[	440	9'772	0.9772
[400 et +	228	10'000	1

Tableau: 7.9 - Intervalles de classe pour la détermination de la droite de Henry

Ce qui ressemble terriblement à une loi Normale d'où l'autorisation, sans trop de risques, d'utiliser dans cet exemple la technique de la droite d'Henry.

Mais que faire maintenant? Eh bien connaissant les fréquences cumulées, il ne nous reste plus qu'à calculer pour chacune d'entre elles k* à l'aide de tables numériques ou avec la fonction NORMSINV( ) de la version anglaise de Microsoft Excel 11.8346 (car rappelons que l'intégration formelle de la distribution gaussienne n'est pas des plus faciles...).

Ceci nous donnera les valeurs de la loi Normale centrée réduite N(0,1) de ces mêmes fréquences respectives cumulées (fonction de répartition). Ainsi nous obtenons (nous laissons le soin au lecteur de chercher sa table numérique ou d'ouvrir son logiciel préféré...):

Borne supérieure de l'intervalle	Fréquences relatives cumulées	Correspondance pour k* de N(0,1)
50	0.068	-1.5
100	0.1587	-1
150	0.3085	-0.5
200	0.5000	0
250	0.6915	0.5
300	0.8413	1
350	0.9332	1.5
400	0.9772	2
-	1	-

Tableau: 7.10 - Fréquences relatives cumulées pour la droite de Henry

Signalons que dans le type de tableau ci-dessus, dans Microsoft Excel, les valeurs de fréquences cumulées nulles et unitaires (extrêmes) posent des problèmes. Il faut alors jouer un petit peu...

Donc graphiquement sous Microsoft Excel 11.8346 nous obtenons grâce à notre tableau le graphique suivant (évidemment en toute rigueur on fera une régression linéaire dans les règles de l'art comme vu dans le chapitre de Méthodes Numériques avec intervalles de confiance, de prédiction et tout le toutim...):

Donc à l'aide de la régression donnée par Microsoft Excel 11.8346 (ou calculée par vos soins selon les techniques de régressions linéaires vues dans le chapitre de Méthodes Numériques). Il vient:

Il s'agit donc d'une technique particulière pour une distribution particulière! Des techniques similaires plus ou moins simples (ou compliquées suivant les cas...) existent pour d'autres distributions.

Voyons une autre manière approximative d'aborder le problème. Reprenons pour cet exemple notre tableau:

Tickets	Borne droite	Centre	Fréquences relatives cumulées en%
[0,50[	50	25	6.8
[50,100[	100	75	15.87
[100,150[	150	125	30.85
[150,200[	200	175	50.00
[200,250[	250	225	69.15
[250,300[	300	275	84.13
[300,350[	350	325	93.32
[350,400[	400	375	97.72
[400 et +	-	-	100

La moyenne sera maintenant calculée à l'aide de la valeur centrale des intervalles et des effectifs selon la relation vue au début de ce chapitre:

Tickets	Centre	Tickets (fréquence)	Calcul
[0,50[	25	668	16'700
[50,100[	75	919	68'925
[100,150[	125	1'498	187'250
[150,200[	175	1'915	335'125
[200,250[	225	1'915	430'875
[250,300[	275	1'498	411'950
[300,350[	325	919	298'675
[350,400[	375	440	165'000
[400 et +	-	-	-
	Somme:	9772	1'914'500
		Moyenne:	1'914'500/9'772 =195.92

La moyenne que nous venons de calculer est donc assez proche de la moyenne obtenue précédemment avec la droite de Henry.

L'écart-type sera maintenant calculé à l'aide de la valeur centrale des intervalles et des effectifs selon la relation vue aussi au début de ce chapitre:

Tickets	Centre	Tickets (fréquence)	Calcul
[0,50[	25	668	1997.00
[50,100[	75	919	1375.08
[100,150[	125	1'498	771.02
[150,200[	175	1'915	85.76
[200,250[	225	1'915	165.71
[250,300[	275	1'498	958.65
[300,350[	325	919	1566.93
[350,400[	375	440	1443.98
[400 et +	-	228	-
		Variance:	8364.16
		Ecart-Type:	91.45

L'écart-type que nous venons de calculer est donc assez proche de l'écart-type obtenu avec la méthode de la droite de Henry.

DIAGRAMME QUANTILE-QUANTILE

Une autre manière de juger qualitativement de l'ajustement de données expérimentales avec une loi théorique (quelle qu'elle soit!!!) est l'utilisation d'un "diagramme quantile-quantile".

L'idée est assez simple, il s'agit de comparer les données expérimentales aux données théoriques supposées suivre une loi donnée. Ainsi, dans le cas de notre exemple nous avons en prenant les valeurs de la moyenne (~200) et l'écart-type (~100) obtenus avec la droite de Henry comme paramètres théorique de la loi Normale, nous obtenons alors:

Tickets	Borne de droite expérimentale (imposée)	Fréquences relatives cumulées en %	Borne de droite théorique (calculée)
[0,50[	50	6.80%	50.91
[50,100[	100	15.87%	100.02
[100,150[	150	30.85%	149.99
[150,200[	200	50.00%	200
[200,250[	250	69.15%	250.01
[250,300[	300	84.13%	299.98
[300,350[	350	93.32%	350.00
[350,400[	400	97.72%	399.90
[400 et +	-	100%	-

Représenté graphiquement, cela nous donne donc le fameux diagramme quantile-quantile:

Et bien évidemment on peut comparer les quantiles observés à toute loi théorique supposée. Plus les points seront alignés sur la droite de pente unitaire et d'ordonnée à l'origine nulle, meilleur sera l'ajustement! C'est très visuel, très simple et beaucoup utilisé par les non spécialistes en statistiques dans les entreprises.

DISTRIBUTION LOG-NORMALE

Nous disons qu'une variable aléatoire positive X suit une "distribution log-normale" (ou "loi log-normale") de paramètres si en posant:

nous voyons que y suit une fonction de probabilité de type loi Normale de moyenne

et de variance

(moments de la loi Normale).

In extenso, de par les propriétés des logarithmes, une variable peut être modélisée par une loi log-normale si elle est le résultat de la multiplication d'un grand nombre de petits facteurs indépendants (propriété du produit en somme des logarithmes et de la stabilité de la loi Normale par l'addition).

qui peut être calculée dans la version française de Microsoft Excel 11.8346 avec la fonction LOI.LOGNORMALE( ) ou pour la réciproque par LOI.LOGNORNALE.INVERSE( ).

Ce type de scénario se retrouve fréquemment en physique, dans les techniques de maintenance ou encore en finance des marchés dans le modèle de pricing des options (voir ces chapitres respectifs du site pour des exemples concrets). Il y a par ailleurs une remarque importante relativement à la loi log-normale dans le traitement plus loin du théorème central limite!

Montrons que la fonction de probabilité cumulée correspond bien à une loi Normale si nous faisons le changement de variable mentionné précédemment:

L'espérance (moyenne) de X est donnée alors par (le logarithme népérien n'étant pas défini pour

nous bornons l'intégrale à partir de zéro):

et où nous avons utilisé la propriété qui a émergée lors de notre étude de la loi Normale, c'est-à-dire que toute intégrale de la forme:

Pour le calcul de la variance, rappelons que pour une variable aléatoire X, nous avons la relation de Huyghens:

Voici un exemple de tracé de la fonction de distribution et répartition pour la fonction Log-Normale de paramètres

DISTRIBUTION UNIFORME CONTINUE

Soient

. Nous définissons la fonction de distribution de la "distribution uniforme" (ou "loi uniforme") par la relation:

où

signifie qu'en dehors du domaine de définition [a, b] la fonction de distribution est nulle. Nous retrouverons ce type de notation pour certaines autres fonctions de distribution plus loin.

Il s'agit bien d'une fonction de distribution car elle vérifie (intégrale simple):

Voici un exemple de tracé de la fonction de distribution et respectivement de répartition pour la loi Uniforme continue de paramètres

Figure: 7.25 - Loi uniforme continue (fonction de distribution et de répartition)

Voyons un résultat intéressant de la loi Uniforme continue (et qui s'applique à la discrète aussi en fait...).

Souvent j'entends des gestionnaires (qui se jugent de haut niveau) dire que comme une mesure a une probabilité égale d'avoir lieu dans un intervalle fermé donné, alors la somme de deux variables aléatoires indépendantes du même type aussi!

Or nous allons démontrer ici que ce n'est pas le cas (si quelqu'un a une démonstration plus élégante je suis preneur)!

Considérons deux variables aléatoires indépendantes X et Y qui suivent une loi uniforme dans un intervalle fermé [0,a]. Nous cherchons donc la densité de leur somme qui sera notée:

Pour calculer la loi de la somme, rappelons que nous savons qu'en termes discrets cela équivaut à faire le produit conjoint des probabilités (cf. chapitre de Probabilités) d'apparition des deux variables continues (se rappeler le même genre de calcul sous forme discrète!).

L'intégrant vaut par définition 0 sauf lorsque par construction

où il vaut alors 1.

Intéressons-nous alors aux bornes de l'intégrale dans ce dernier cas qui est bien évidemment le seul qui est intéressant...

L'intégrale s'écrit alors dans cet intervalle après ce changement de variable:

En se rappelant comme vu au début que

, alors nous avons immédiatement si

que l'intégrale est nulle.

Nous allons considérer deux cas pour cet intervalle car la convolution de ces deux fonctions rectangulaires peut se distinguer selon la situation où dans un premier temps elles se croisent (s'emboîtent), c'est-à-dire où

, et ensuite s'éloignent l'une de l'autre, c'est-à-dire

où nous avons changé la borne inférieure à 0 car de toute façon

est nulle pour toute valeur négative (et lorsque

est justement négatif ou nul!).

où nous avons changé la borne supérieure à a car de toute façon

est nulle pour toute valeur supérieure (et lorsque

, z est justement plus grand que a).

Il s'agit d'un cas particulier, volontairement simplifié, de la loi triangulaire que nous allons voir de suite.

Ce résultat (qui peut sembler contre intuitif) se vérifie en quelques secondes avec un tableur comme Microsoft Excel 11.8346 en utilisant la fonction ALEA.ENTRE.BORNES( ) et la fonction FREQUENCE( ) dans la version française.

DISTRIBUTION TRIANGULAIRE

Soient

. Nous définissons la "distribution triangulaire" (ou "loi triangulaire") par construction basée sur les deux fonctions de distribution suivantes:

où a est souvent assimilée à la valeur optimiste, c la valeur attendue (le mode) et b la valeur pessimiste.

C'est aussi la seule manière d'écrire cette fonction de distribution si le lecteur garde à l'esprit que le triangle de base c-a doit avoir une hauteur h valant 2/(c-a) telle que sa surface totale soit égale à l'unité (nous allons de suite le montrer).

Voici un exemple de tracé de la fonction de distribution et répartition pour la fonction triangulaire de paramètres (a, c, b) = (0, 3, 5):

La pente de la première droite (croissante de gauche) est donc bien évidemment:

Il s'agit dans ce cas, simplement de l'aire du triangle qui rappelons-le est simplement la base multipliée par la hauteur le tout divisé par 2 (cf. chapitre sur les Formes Géométriques):

Nous pouvons remplacer

par l'expression obtenue précédemment et simplifier (c'est de l'algèbre élémentaire pénible...):

Nous pouvons montrer que la somme de deux variables aléatoires indépendantes chacune de loi uniforme sur [a,b] (donc indépendantes et identiquement distribuées) suit une loi triangulaire sur [2a,2b] mais si elles n'ont pas les mêmes bornes, alors leur somme donne un truc qui n'a pas de nom à ma connaissance...

DISTRIBUTION DE PARETO

La "distribution de Pareto" (ou "loi de Pareto"), appelée aussi "loi de puissance" ou encore "loi scalante" est la formalisation du principe des 80-20. Cet outil d'aide à la décision détermine les facteurs (environ 20%) cruciaux qui influencent la plus grande partie (80%) de l'objectif.

Une variable aléatoire est dite par définition suivre une loi de Pareto si sa fonction de répartition est donnée par:

La distribution de Pareto est donc définie par deux paramètres, x_m et k (nommé "index de Pareto"). Cette une loi dite aussi à "invariance d'échelle" ou "loi fractale", terme définissant la propriété suivante:

La loi de Pareto est par ailleurs bien une fonction de distribution puisque étant connue sa fonction de répartition:

Voici un exemple de tracé de la fonction de distribution et répartition pour la fonction de Pareto de paramètre

Il existe une autre manière importante de déduire la famille des lois de Pareto qui permet de comprendre bien des choses concernant d'autres lois et qui est souvent présentée de la façon suivante:

Notons

le seuil au-delà duquel nous calculons l'espérance de la quantité examinée, et E(Y) l'espérance au-delà de ce seuil

tel qu'il soit proportionnel (linéairement dépendant) au seuil choisi:

Cette relation fonctionnelle exprime l'idée que la moyenne conditionnelle au-delà du seuil

est un multiple de ce seuil à une constante près, c'est-à-dire une fonction linéaire de ce seuil.

Ainsi, en gestion de projets par exemple, nous pourrions dire qu'une fois une certain seuil de durée dépassé, la durée espérée est un multiple de ce même seuil à une constante près.

Si une relation linéaire de ce type existe et est bien vérifiée, nous parlons alors de distribution de probabilité sous la forme d'une loi de Pareto généralisée.

Considérons l'espérance mathématique de la fonction conditionnelle bayésienne donnée par (cf. chapitre de Probabilités):

où la notation à gauche est un peu raccourcie mais le lecteur comprendra implicitement qu'il s'agit d'un espérance conditionnelle.

Si nous notons

la fonction de répartition de

, nous avons alors par définition:

La dérivée de l'intégrale définie ci-dessus sera la dérivée d'une constante (valorisation de l'intégrale en

) moins la dérivée de l'intégrale de l'expression analytique en x. Nous avons donc:

qui est donc une équation différentielle en

. Sa résolution fournit toutes les formes de lois de Pareto recherchées, selon les valeurs que prennent les paramètres a et b.

Pour résoudre cette équation différentielle, considérons le cas particulier où

. Nous avons alors:

Si nous cherchons la fonction de distribution, nous dérivons par x pour obtenir:

Il s'agit de la loi de Pareto que nous avons utilisée depuis le début et nommée "distribution de Pareto de type I" (nous ne montrerons pas sur ce site Internet celles de type II).

Une chose intéressante à observer au passage est le cas de la résolution de l'équation différentielle:

et en dérivant nous obtenons la fonction de distribution de la loi exponentielle:

Donc la loi exponentielle a une espérance conditionnelle seuil qui est égale à:

Donc l'espérance conditionnelle seuil est égale à elle-même augmenté de l'écart-type de la distribution.

DISTRIBUTION EXPONENTIELLE

Nous définissons la "distribution exponentielle" (ou "loi exponentielle") par la relation de fonction de distribution suivante:

avec

qui comme nous allons de suite le montrer n'est au fait que l'inverse de la moyenne et où x est une variable aléatoire sans mémoire.

Au fait la loi exponentielle découle naturellement de développements très simples (voir celui dans le chapitre de Physique Nucléaire par exemple) sous des hypothèses qui imposent une constance dans le vieillissement d'un phénomène. Dans le chapitre des Techniques de Gestion, nous avons aussi démontré en détails dans la partie concernant la théorie des files d'attentes, que cette loi était sans mémoire. C'est-à-dire que la probabilité cumulée qu'un phénomène se produise entre les temps t et t + s, s'il ne s'est pas produit avant, est la même que la probabilité cumulée qu'il se produise entre les temps 0 et s.

Remarques:

R1. Cette distribution se retrouve fréquemment en physique nucléaire (voir chapitre du même nom) ou encore en physique quantique (voir aussi chapitre du même nom) ainsi qu'en fiabilité (cf. chapitre de Génie Industriel) ou dans la théorie des files d'attentes (cf. chapitre de Techniques de Gestion).

R2. Nous pouvons obtenir cette loi dans la version française de Microsoft Excel 11.8346 avec la fonction LOI.EXPONENTIELLE( ).

La distribution exponentielle a pour espérance (moyenne) en utilisant l'intégration par parties:

Donc l'écart-type (racine carrée de la variance pour rappel) et l'espérance ont exactement la même expression!

Voici un exemple de tracé de la fonction de distribution et répartition pour la fonction exponentielle de paramètre

DISTRIBUTION DE CAUCHY

Soient X, Y deux variables aléatoires indépendantes suivant des lois Normales centrées réduites (variance unité et espérance nulle). La fonction de densité est donc donnée pour chacune des variables par:

(la valeur absolue interviendra dans une intégrale lors d'un changement variable) suit une allure caractéristique appelée "distribution de Cauchy" (ou "loi de Cauchy") ou encore "loi de Lorentz".

Déterminons sa fonction de densité f. Pour cela, rappelons que f est déterminée par la relation (générale):

Etant donné que X et Y sont indépendants, la fonction de densité du vecteur aléatoire est donnée par un des axiomes des probabilités (cf. chapitre de Probabilités):

Il ne reste donc plus que la seconde intégrale et en faisant le changement de variable

, nous obtenons:

Ce que nous noterons par la suite (afin de respecter les notations adoptées jusqu'à présent):

Il s'agit par ailleurs bien d'une fonction de distribution car elle vérifie (cf. chapitre de Calcul Différentiel et Intégral):

Attention!!! Les calculs précédents ne donnent pas zéro en réalité fait car la soustraction d'infinis n'est non pas nulle mais indéterminée! La loi de Cauchy n'admet donc pas d'espérance rigoureusement parlant!

celle-ci est absurde et n'existe rigoureusement parlant pas puisque l'espérance n'existe pas...!

distribution BÊTA

Rappelons d'abord que la fonction Gamma d'Euler est définie par la relation (cf. chapitre de Calcul Différentiel Et Intégral):

Nous avons démontré (cf. chapitre de Calcul Différentiel Et Intégral) qu'une propriété non triviale de cette fonction est que:

Pour l'intégrale interne nous utilisons maintenant la substitution

et nous trouvons alors:

La fonction B qui apparaît dans l'expression ci-dessus est appelée "fonction bêta" et nous avons donc:

Maintenant que nous avons défini ce qu'était la fonction bêta, considérons les deux paramètres

et considérons la relation particulière ci-dessous comme étant la "distribution bêta" ou "loi bêta" (il existe plusieurs formulations de la loi bêta dont une très importante qui est étudiée en détails dans le chapitre de Techniques de Gestion):

Nous vérifions d'abord que que

est bien une fonction de distribution (sans trop aller dans les détails...):

Exemples de tracés de la fonction de distribution (densité) pour

en rouge,

en vert,

en noir,

en bleu,

en magenta,

en cyan,

en gris,

en turquoise,

en jaune,

en couleur or:

et tracé de la fonction de distribution et répartition de la loi bêta de paramètres

Le fait que la loi beta soit une des rares fonction de distribution dont le support soit compris entre ]0,1[ explique son usage courant dans les statistiques bayésiennes en tant que loi a priori de la distribution d'une proportion!

DISTRIBUTION GAMMA

La fonction Gamma d'Euler étant connue, considérons deux paramètres

et définissons la "distribution Gamma" (ou "loi Gamma") comme étant donnée par la relation (fonction de densité):

et pouvons alors écrire la relation sous une forme plus classique que nous trouvons fréquemment dans la littérature spécialisée:

et c'est sous cette forme que nous retrouvons cette fonction de distribution dans la version française de Microsoft Excel 11.8346 sous le nom LOI.GAMMA( ) et pour sa réciproque par LOI.GAMMA.INVERSE( ).

Voyons maintenant une propriété simple de la loi Gamma qui nous sera en partie utile pour l'étude du test statistique de Welch. Rappelons d'abord que nous avons démontré plus haut que:

Donc la multiplication par une constante d'une variable aléatoire qui suit une loi Gamma n'a que pour effet de diviser le paramètre

par cette même constante. Raisons pour laquelle

est appelé "paramètre d'échelle".

, la loi Gamma au dénominateur devient (cf. chapitre de Calcul Différentiel Et Intégral) la factorielle

. La distribution Gamma peut alors s'écrire:

Cette forme particulière la fonction de distribution Gamma s'appelle alors la "fonction d'Erlang" que nous retrouvons naturellement dans la théorie des files d'attentes et qui est donc très importante dans la pratique!

Ensuite, nous vérifions avec un raisonnement similaire en tout point à celui de la fonction bêta que

est une fonction de distribution:

Exemples tracés de la fonction de distribution pour

en rouge,

en vert,

en noir,

en bleu,

en magenta:

et tracé de la fonction de distribution et répartition pour la fonction Gamma de paramètres

Démontrons une propriété de la distribution Gamma qui nous servira à établir plus tard dans ce chapitre, lors de notre étude de l'analyse de la variance et des intervalles de confiance sur des petits échantillons, une autre propriété extrêmement importante de la loi du Khi-deux.

Comme nous le savons, la fonction de densité d'une variable aléatoire suivant une distribution Gamma de paramètres

est:

avec (cf. chapitre de Calcul Différentiel Et Intégral) la fonction Gamma d'Euler:

Par ailleurs, quand une variable aléatoire suit une distribution Gamma nous la notons souvent sous la forme suivante :

Soient X, Y deux variables indépendantes. Montrons que si

, donc avec le même paramètre d'échelle, alors:

Notons f la fonction de densité du couple X, Y,

la fonction de densité de X et

la fonction de densité de Y. Vu que X, Y sont indépendantes, nous avons:

étant nulles lorsque leur argument est négatif, nous pouvons changer les bornes d'intégration:

où B est la fonction bêta que nous avons vue plus haut dans notre étude de la fonction de distribution bêta. Or nous avons aussi démontré la relation:

Ce qui montre que bien que si deux variables aléatoires suivent une distribution Gamma alors leur somme aussi telle que:

Donc la distribution Gamma est stable par addition de même que le sont toutes les lois qui découlent de la loi Gamma et que nous allons aborder ci-après.

DISTRIBUTION DE Khi-deux (OU DE PEARSON)

La "distribution du Khi-deux" (appelée aussi "loi du Khi-deux" ou encore "loi de Pearson") a une place très importante dans la pratique industrielle pour certains tests d'hypothèses courants (voir plus beaucoup plus loin...) et n'est par définition qu'un cas particulier de la distribution Gamma dans le cas où

, avec k entier positif:

Cette relation qui relie la distribution du Khi-deux à la distribution Gamma est importante dans la version française de Microsoft Excel 11.8346 car la fonction LOI.KHIDEUX( ) donne le seuil de confiance et non la fonction de distribution. Il faut alors utiliser la fonction LOI.GAMMA( ) avec les paramètres donnés ci-dessus (à part qu'il faut prendre l'inverse de 1/2, soit 2 comme paramètre) pour avoir la fonction de distribution et de répartition.

Le lecteur qui voudra vérifier que la loi du Khi-2 est seulement un cas particulier de la loi Gamma, pourra écrire dans la version française de Microsoft Excel 14.0.6123:

Tous les calculs faits auparavant s'appliquent et nous avons alors immédiatement:

Exemples de tracés de la fonction de distribution pour

en rouge,

en vert,

en noir,

en bleu:

et tracé de la fonction de distribution et respectivement de répartition pour la loi du Khi-deux pour

pour indiquer que la distribution de la variable aléatoire X est la loi du Khi-deux. Par ailleurs il est courant de nommer le paramètre k "degré de liberté" et de l'abréger "ddl".

La fonction Khi-deux découle donc de la loi Gamma et par ailleurs en prenant

nous retrouvons aussi la loi exponentielle (voir plus haut) pour

Enfin, terminons avec une propriété assez importante dans les tests statistiques que nous étudierons un peu plus loin et particulièrement dans les intervalles de confiance des événements rares. Effectivement, le lecteur pourra vérifier dans un tableur comme Microsoft Excel 14.0.6123 (version française), que nous avons:

Il nous faut donc démontrer cette relation entre loi du khi-2 et loi de Poisson. Voyons cela en partant de la loi Gamma:

Maintenant, rappelons que nous avons vu dans le chapitre de Suites Et Séries, la série de Taylor (Maclaurin) avec reste intégral à l'ordre n - 1 autour de 0 jusqu'à

et un second changement de variable (attention! le k dans le changement de variable n'est pas le même que celui de la somme de la loi de Poisson...):

Or, nous avons démontré dans le chapitre de Calcul Différentiel Et Intégral que si x est un entier strictement positif:

où nous retrouvons donc bien la fonction de distribution du khi-2 sous l'intégrale! Donc au final:

D'où la relation donnée plus haut pour les tableurs en se rappelant bien que nous avons posé:

DISTRIBUTION DE STUDENT

La "fonction de Student" (ou "loi de Student") de paramètre k est définie par la relation:

avec k étant le degré de liberté de la loi du Khi-deux sous-jacente à la construction de la fonction de Student comme nous allons le voir.

Indiquons qu'elle peut aussi être obtenue dans la version français de Microsoft Excel 11.8346 à l'aide des fonctions LOI.STUDENT( ) et sa réciproque par LOI.STUDENT.INVERSE( ).

Voyons la démonstration la plus simple pour justifier la provenance de la loi de Student et qui nous sera en même temps très utile dans l'inférence statistique et l'analyse de la variance plus loin.

R1. Si X, Y sont deux variables aléatoires indépendantes de densités respectives

, la loi du couple (X, Y) possède une densité f vérifiant (axiome des probabilités!):

R4. La fonction Gamma d'Euler

est définie pour tout

par (cf. chapitre de Calcul Différentiel et Intégral):

Ces rappels étant faits, considérons maintenant X une variable aléatoire suivant la loi N(0,1) et Y une variable aléatoire suivant la loi

Nous supposons X et Y indépendantes et nous considérons la variable aléatoire (c'est à l'origine l'étude historique de la loi de Student dans le cadre de l'inférence statistique qui a amené à poser cette variable dont nous justifierons l'origine plus loin):

Notons F et f les fonctions de répartition et de densité de T et

les fonctions de densité de X, Y et (X,Y) respectivement. Nous avons alors pour tout

la valeur imposée positive et non nulle de y étant due au fait qu'elle est sous une racine et en plus au dénominateur.

car (la dérivée d'une fonction est égale à sa dérivée multipliée par sa dérivée intérieure):

Donc

existe si et seulement si

et vaut alors selon les propriétés de la fonction Gamma d'Euler démontrées dans le chapitre de Calcul Différentiel Et Intégral:

Il est par ailleurs important de remarquer que cette loi est symétrique par rapport à 0!

Exemple de tracé de la fonction de distribution et répartition pour la fonction de Student de paramètre

DISTRIBUTION DE FISHER

La "fonction de Fisher" (ou "loi de Fisher-Snedecor") de paramètres k et l est définie par la relation:

. Les paramètres k et l sont des entiers positifs et correspondent aux degrés de liberté des deux lois du Khi-deux sous-jacentes. Cette distribution est souvent notée

ou F(k,l) et peut être obtenue dans la version française de Microsoft Excel 11.8346 par la fonction LOI.F( ).

Il s'agit bien d'une fonction de distribution car elle vérifie également (reste à démontrer directement mais bon comme nous allons le voir elle est le produit de deux fonctions de distribution donc indirectement...):

Voyons la démonstration la plus simple pour justifier la provenance de la loi de Fisher et qui nous sera en même temps très utile dans l'inférence statistique et l'analyse de la variance plus loin.

R2. La fonction

est définie pour tout

par (cf. chapitre de Calcul Différentiel et Intégral):

Soient X, Y deux variables aléatoires indépendantes suivant respectivement les lois

Nous allons donc montrer que la loi de T est la loi de Fisher-Snedecor de paramètres n, m.

Notons pour cela F et f les fonctions de répartition et de densité de T et

, f les fonctions de densité de X, Y et (X,Y) respectivement. Nous avons pour tout

où les valeurs positives imposées proviennent à l'origine d'une loi du Khi-deux pour x et y.

Nous obtenons la fonction de densité de T en dérivant F. D'abord la dérivée intérieure:

DISTRIBUTION DE BENFORD

Cette distribution aurait été découverte une première fois en 1881 par Simon Newcomb, un astronome américain, après qu'il se fut aperçu de l'usure (et donc de l'utilisation) préférentielle des premières pages des tables de logarithmes (alors compilées dans des ouvrages). Frank Benford, qui aux alentours de 1938 remarqua à son tour cette usure inégale, crut être le premier à formuler cette loi qui porte indûment son nom aujourd'hui et arriva aux mêmes résultats après avoir répertorié des dizaines de milliers de données (longueurs de fleuves, cours de la bourse, etc.).

Seule explication possible: nous avons plus souvent besoin d'extraire le logarithme de chiffres commençant par 1 que de chiffres commençant par 9, ce qui implique que les premiers sont "plus nombreux" que les seconds.

Bien que cette idée lui paraisse tout à fait invraisemblable, Benford entreprend de vérifier son hypothèse. Rien de plus simple: il se procure des tables de valeurs numériques et calcule le pourcentage d'apparition du chiffre le plus à gauche (première décimale). Les résultats qu'il obtient confirment son intuition:

Chiffre initial	Probabilité d'apparition
1	30.1 %
2	17.6 %
3	12.5 %
4	9.7 %
5	7.9 %
6	6.7 %
7	5.8 %
8	5.1 %
9	4.6 %

Tableau: 7.11 - Probabilité d'apparition d'un chiffre selon la loi de Benford

À partir de ces données, Benford trouve expérimentalement que la probabilité cumulée qu'un nombre commence par le chiffre n (excepté 0) est (nous allons le démontrer plus loin) donnée par la relation:

Il convient de préciser que cette loi ne s'applique qu'à des listes de valeurs "naturelles", c'est-à-dire à des chiffres ayant une signification physique. Elle ne fonctionne évidemment pas sur une liste de chiffres tirés au hasard.

La loi de Benford a été testée sur toutes sortes de tables: longueur des fleuves du globe, superficie des pays, résultat des élections, liste des prix de l'épicerie du coin... Elle se vérifie presque à tous les coups.

La distribution serait en plus indépendante de l'unité choisie. Si l'on prend par exemple la liste des prix d'un supermarché, elle fonctionne aussi bien avec les valeurs exprimées en Francs qu'avec les mêmes prix convertis en Euros.

Cet étrange phénomène est resté peu étudié et inexpliqué jusqu'à une époque assez récente. Puis une démonstration générale en a été donnée en 1996, qui fait appel au théorème de la limite centrale.

Aussi surprenant que cela puisse paraître, cette loi a trouvé une application: le fisc l'utiliserait aux Etats-Unis pour détecter les fausses déclarations. Le principe est basé sur la restriction vue plus haut: la loi de Benford ne s'applique que sur des valeurs ayant une signification physique.

S'il existe une distribution de probabilité universelle P(n) sur de tels nombres, ils doivent être invariants sous un changement d'échelle tel que:

Cette fonction, n'est pas en premier lieu à proprement parler une fonction de distribution de probabilité (elle diverge) et deuxièmement, les lois de la physique et humaines imposent des limites.

Nous devons donc comparer cette distribution par rapport à une référence arbitraire. Ainsi, si le nombre décimal étudié contient plusieurs puissances de 10 (10 au total: 0,1,2,3,4,5,6,7,9) la probabilité que le premier chiffre non nul (décimal) soit D est alors donnée par:

Les bornes de l'intégrale sont de 1 à 10 puisque la valeur nulle est interdite.

De par les propriétés des logarithmes (cf. chapitre d'Analyse Fonctionnelle) nous avons:

Cependant, la loi de Benford ne s'applique pas uniquement aux données invariantes par changement d'échelle mais également à des nombres provenant de sources quelconques. Expliquer ce cas implique une investigation plus rigoureuse en utilisant le théorème de la limite centrale. Cette démonstration a été effectuée seulement en 1996 par T. Hill par une approche utilisant la distribution des distributions.

Pour résumer un partie importante de tout ce que nous avons vu jusqu'ici, l'illustration ci-dessous est très utile car elle résume les relations de 76 distributions univariées courantes (57 continues et 19 discrètes):

Figure: 7.38 - Relations entre les distributions (Source: AMS Lawrence M. Leemis and Jacquelyn T. McQueston)