
THÉORIE
DE LA DÉMONSTRATION | NOMBRES
| OPÉRATEURS ARITHMÉTIQUES
THÉORIE DES NOMBRES
| THÉORIE DES ENSEMBLES |
PROBABILITÉS | STATISTIQUES
Dernière mise à jour de ce chapitre:
2017-01-31 10:12:31 |
{oUUID 1.708}
Version: 3.8 Révision 48 | Avancement: ~90%
vues
depuis le 2012-01-01: 0
LISTE DES SUJETS TRAITÉS SUR CETTE PAGE
La statistique
est une science qui a pour objet le groupement méthodique
de faits ou événements répétitifs
qui se prêtent à une évaluation
numérique ou qualitative dans le temps suivant
une loi donnée. Dans l'industrie et dans l'économie en
général, la statistique est une science qui permet dans un environnement
incertain de faire des inférences valides.
Il faut savoir que parmi tous les domaines de la mathématique,
celui qui est utilisé à la plus large échelle
dans les entreprises et centres de recherches est bien la statistique
et particulièrement depuis que des logiciels en facilitent grandement
les calculs! Raison pour laquelle ce chapitre est un des plus gros
du site internet
alors
que seuls
les concepts élémentaires
y sont présentés!
Signalons aussi que les statistiques ont très mauvaise
réputation
à l'université car les notations y sont souvent confuses
et varient grandement d'un professeur à l'autre, d'un livre à l'autre,
d'un praticien à l'autre. En toute rigueur, il faudrait
se conformer au vocabulaire et notations de la norme ISO 3534-1:2006
et comme malheureusement ce chapitre a été écrit
avant la publication de cette norme... un certain temps d'adaptation
sera nécessaire
avec qu'il y ait conformité.
Il est peut être inutile de préciser que la statistique
est beaucoup utilisée en ingénierie, physique théorique,
physique fondamentale, économétrie,
gestion de projets ainsi que dans l'industrie des processus, dans
les domaines des assurances vies et non vies, dans l'actuariat
ou dans
la simple analyse de banque de données (avec Microsoft Excel
très
souvent... malheureusement....) et la liste est encore longue.
Par ailleurs, nous rencontrerons les outils présentés
ici assez souvent dans les chapitres de Mécanique des Fluides,
de Thermodynamique, des Techniques de Gestion, du Génie
Industriel et d'Économie
(en particulier dans ces deux dernières). Le lecteur pourra
donc s'y reporter pour avoir des applications pratiques concrètes
de quelques-uns des éléments théoriques les
plus importants qui seront vus ici.
Signalons également que outre les quelques exemples simples
donnés
sur ces pages, de nombreux autres exemples applicatifs sont donnés
sur le serveur d'exercices du
site dans
les catégories Probabilités
et Statistiques, Génie Industriel, Économétrie
et Techniques de Gestion.
Définition: Le
but principal de la statistique est de déterminer les caractéristiques
d'une population donnée à partir de l'étude
d'une partie de cette population, appelée "échantillon" ou
"échantillon représentatif".
La détermination de ces caractéristiques doit permettre
aux statistiques d'être un outil d'aide à la décision!
Remarque: Le traitement des données concerne la "statistique
descriptive". L'interprétation des données
à partir des estimateurs s'appelle "l'inférence
statistique" (ou "statistique
inférentielle"), et l'analyse de données
en masse la "statistique fréquentielle"
(en opposition à l'inférence bayésienne).
Lorsque nous observons un événement prenant en compte
certains facteurs, il peut arriver qu'une deuxième observation
ait lieu dans des conditions qui semblent identiques. En répétant
ces mesures plusieurs fois sur différents objets supposés
similaires, nous pouvons constater que les résultats
observables sont distribués statistiquement autour d'une
valeur moyenne qui est, finalement le résultat possible
le plus probable. Dans la pratique, nous n'effectuons cependant
parfois qu'une
seule mesure et il s'agit
alors de déterminer la valeur de l'erreur que nous commettons
en adoptant celle-ci comme moyenne mesurée. Cette détermination
nécessite
de connaître le type de distribution statistique auquel nous
avons affaire et c'est ce que nous allons nous attarder (entre
autres) à
étudier ici (les bases du moins!). Il existe cependant plusieurs
approches méthodologiques courantes (les moins courantes
n'étant pas citées pour l'instant) face au hasard:
1. Une toute première consiste
à ignorer purement et simplement les éléments
aléatoires, pour
la bonne raison que l'on ne sait pas comment les intégrer.
Nous utilisons alors la "méthode
des scénarios"
appelée aussi "simulation
déterministe". C'est typiquement un outil
utilisé
par les financiers ou gestionnaires
non diplômés
travaillant avec des outils comme Microsoft Excel (qui
inclut un outil de gestion de scénarios) ou Microsoft
Project (qui inclut un outil de scénarios déterministes
du type optimiste, pessimiste et attendu).
2. Une seconde approche
envisageable, quand nous ne savons pas associer des probabilités
précises aux futurs événements aléatoires,
est la théorie des
jeux (cf. chapitre de la Théorie
Des Jeux Et De La Décision)
où l'on utilise des critères de sélection
semi-empiriques comme le critère du maximax, du minimax,
de Laplace, de Savage, etc.
3. Enfin,
quand nous pouvons lier des probabilités aux événements
aléatoires,
soit que ces probabilités découlent de calculs
ou de mesures, soit qu'elles reposent sur une expérience
acquise auprès
de situations antérieures de même nature que la
situation actuelle, nous pouvons faire appel aux statistiques
descriptives
et inférentielles (contenu
du présent chapitre) pour tirer des informations exploitables
et pertinentes
de cette masse de données acquises.
4. Une dernière
approche quand nous avons connaissance de probabilités
relatives aux issues intervenantes faisant suite à des
choix stratégiques
est l'utilisation de la théorie de la décision
(cf.
chapitre de la Théorie Des Jeux Et De La Décision).
Remarques:
R1. Sans la statistique mathématique, un
calcul sur des données (par exemple une moyenne), n'est
qu'un "indicateur ponctuel".
C'est la statistique mathématique qui lui donne le statut
d'estimateur dont on maîtrise le biais, l'incertitude
et autres caractéristiques statistiques. Nous cherchons
en général
à ce que l'estimateur soit sans biais, convergeant et efficace
(nous verrons lors de notre étude des estimateurs plus loin de
quoi il s'agit exactement).
R2. Lorsque nous communiquons une statistique il devrait être
obligatoire de préciser l'intervalle de confiance, la
p-value ainsi que la taille de l'échantillon étudié (statistiques
absolues) et ses caractéristiques détaillées
et mettre à disposition les données sources ainsi que le protocole
de mesure sinon quoi elle n'a quasiment aucune valeur scientifique
(nous
verrons
toute
ces
notions en
détails
plus loin). Une erreur courante est de communiquer en valeur
relative. Par exemple sur un groupe test 1'000 femmes, 5 femmes
mourront
d'un cancer du sein sans dépistage, alors qu'avec dépistage
4 femmes. Un peu rapidement on dira (typiquement les médecins....)
que le dépistage
sauve donc 20% des femmes (valeur relative). Ce qui est faux
puisqu'en
absolu l'avantage du dépistage est non significatif!
R3. Si vous avez un professeur ou un formateur qui ose vous
enseigner les statistiques et probabilités uniquement
avec des exemples basés sur
des jeux de hasard (cartes, dés, allumettes, pile ou face,
etc.) débarrassez-vous
en ou dénoncez-le. Normalement
les exemples
devraient être basés sur l'industrie, l'économie
ou la R&D, bref dans des domaines utilisés tous les
jours par les entreprises!
Introduisons avant de continuer
quelques définitions qui vont nous être utiles pour la suite sur
le concept d'échantillons et de moyennes:
ÉCHANTILLONS
Lors de l'étude statistique d'ensembles d'informations, la
façon de sélectionner l'échantillon est aussi importante que la
manière de l'analyser. Il faut que l'échantillon soit représentatif
de la population (nous ne faisons pas nécessairement référence
à des populations humaines!). Pour cela, l'échantillonnage
aléatoire est le meilleur moyen d'y parvenir.
Le statisticien part toujours
de l'observation d'un ensemble fini d'éléments, que
nous qualifions de "population".
Les éléments observés, en nombre n,
sont tous de même nature, mais cette nature peut être
fort différente d'une population à l'autre.
Définitions:
D1. Nous sommes en présence
d'un "caractère quantitatif"
lorsque chaque élément observé fait explicitement
l'objet d'une même mesure. À un caractère
quantitatif donné, nous associons une "variable
quantitative" continue ou discrète qui synthétise
toutes les valeurs possibles que la mesure considérée
est susceptible de prendre (ce type d'information étant
représenté
par des distributions du type distribution de Gauss-Laplace,
distribution bêta,
distribution de Poisson, etc.).
Remarque: Nous reviendrons sur le concept de "variable"
et de "distribution" un peu plus loin...
D2. Nous sommes en présence
d'un "caractère qualitatif"
lorsque chaque élément observé fait explicitement
l'objet d'un rattachement unique à une "modalité"
choisie dans un ensemble
de modalités exclusives (de type: homme | femme) permettant
de classer tous les éléments
de l'ensemble étudié selon un certain point de
vue (ce type d'information étant représenté par
des diagrammes à barre, fromages, diagrammes à bulles,
etc.). L'ensemble des modalités d'un caractère
peut être établi a priori avant l'enquête
(une liste, une nomenclature, un code) ou
après enquête. Une population étudiée
peut être
représentée par un caractère mixte, ou
ensemble de modalités
tel que genre, tranche salariale, tranche d'âge, nombre
d'enfants, situation matrimoniale par exemple pour un individu.
D3.
Un "échantillon aléatoire"
est un échantillon tiré au hasard dans lequel tous les individus
d'une population ont la même chance, ou "équiprobabilité"
(et nous insistons sur le fait que cette probabilité doit être égale),
de se retrouver dans l'échantillon.
D4.
Dans le cas contraire d'un échantillon dont les éléments
n'ont pas
été pris au hasard, nous parlons alors "d'échantillon
biaisé"
(dans le cas inverse nous parlons "d'échantillon
non-biaisé").
Remarque: Un petit échantillon représentatif
est, de loin, préférable
à un grand échantillon biaisé. Mais lorsque la taille
des échantillons utilisés
est petite, le hasard peut donner un résultat moins bon
que celui qui est biaisé...
MOYENNES
La
notion de "moyenne" ou "tendance
centrale" (les financiers appellent cela aussi une
"mesure de localisation"...) est avec la notion de "variable" à la
base des statistiques.
Cette
notion nous semble très familière et nous en parlons
beaucoup sans nous poser trop de questions. Pourtant il existe
divers qualificatifs
(nous insistons sur le fait que ce ne sont que des qualificatifs!)
pour distinguer la forme de la résolution d'un problème
consistant
à calculer la moyenne.
Ainsi, il faut être très très prudent quant aux
calculs de moyennes car il y a une fâcheuse tendance dans
les entreprises à se précipiter et à utiliser
systématiquement la moyenne arithmétique sans réfléchir,
ce qui peut amener à de graves erreurs! Un exemple
sympathique (pour faire un analogie) est qu'un nombre considérable
de législations exigent seulement des seuils moyens de pollution
par année alors que par exemple, fumer 1 cigarette par jour
pendant 365 jours n'a pas le même impact que fumer 365 cigarettes
en une journée sur une année alors que les deux ont
la même moyenne pris sur un an... C'est une preuve flagrante
d'incompétence statistique du législateur.
Voici un petit échantillon d'erreurs courantes:
- Considérer que
la moyenne arithmétique est la valeur qui coupe la population
en deux parties égales (alors que c'est la médiane qui fait
cela).
- Considérer que la moyenne de ratios du type objectifs/réalisés
est égale au ratio des moyennes des objectifs et des moyennées
des réalisations (alors que ce n'est pas la même chose!).
- Considérer que la moyenne des salaires de différentes filliales
est égale à la moyenne générale des salaires (alors que ceci n'est
vrai que si et seulement si il y a le même nombre d'employés dans
chaque filliale).
- Considérer que la moyenne de la moyenne des lignes d'un tableau
est toujours égal à la moyenne des moyennes des colonnes (alors
que ceci n'est vrai que si et seulement si le contenu des cellules
est non vide).
- Calculer la moyenne arithmétique de progression de chiffres
d'affaires données en % (alors qu'il faut utiliser la moyenne géométrique).
etc.
Nous verrons ci-dessous différentes moyennes avec des exemples
relatifs
à l'arithmétique, au dénombrement, à la physique, à l'économétrie,
à la géométrie et à la sociologie. Le lecteur
trouvera d'autres exemples pratiques en parcourant l'ensemble du
site.
Définitions: Soient des nombres réels,
nous avons alors:
D1. La "moyenne
arithmétique" ou
"moyenne empirique" (la
plus communément connue) est définie
par le quotient de la somme des n valeurs observées par
l'effectif total n:
(7.1)
et très souvent notée ou
encore est
pour toute loi statistique discrète ou continue un estimateur
sans biais de l'espérance.
La moyenne arithmétique représente donc une mesure
statistique (non robuste car trop sensible aux valeurs extrêmes
contrairement à la médiane) exprimant la grandeur qu'aurait chacun
des membres d'un ensemble de mesures si la somme doit être
identique au produit de la moyenne arithmétique par le nombre
de membres.
Si plusieurs valeurs occurrent
plus d'une fois dans les mesures, la moyenne arithmétique
sera alors souvent notée formellement:
(7.2)
et appelée "moyenne
pondérée (par les effectifs)". Enfin, indiquons
que dans le cadre de cette démarche,
la moyenne pondérée par les effectifs prendra le nom "d'espérance
mathématique" dans le domaine d'étude des
probabilités.
Nous pouvons
tout aussi bien utiliser les fréquences
d'apparition des valeurs observées (dites "fréquence
des classes"):
(7.3)
Nous avons alors la "moyenne
pondérée par les fréquences de classe":
(7.4)
Avant de continuer, indiquons que dans le domaine de la statistique
il est souvent utile et nécessaire de regrouper les mesures/données
dans des intervalles de classe de largeur
donnée (voir les exemples plus loin). Il
faut souvent faire plusieurs essais pour cela même s'il existe
des formules semi-empiriques pour choisir le nombre de classes
lorsque
nous
avons n valeurs à disposition. Une de ces règles
semi-empiriques (nous parlons alros de technique de "discrétisation
des variables") utilisée
par de nombreux praticiens consiste à retenir
le plus petit nombre entier de classes k tel que:
(7.5)
la largeur de l'intervalle de classe étant alors obtenue
en divisant l'étendue (différence entre la valeur
maximale mesurée et la minimale) par k. Soit:
(7.6)
Par convention
et en toute rigueur... (donc rarement
respecté dans
les notations), un intervalle de classe est fermé à gauche
et ouvert à droite: [..., ...[
Cette règle empirique se
nomme la "règle de Sturges" et
est basées sur le raisonnement suivant:
Nous admettons que les valeurs du coefficient binomial
donnent
le nombre d'individus d'un histogramme idéal (nous laissons
le lecteur vérifier
cela simplement avec un tableau comme Microsoft Excel 11.8346
et la fonction COMBIN( ) qui y est disponible dans la version française)
de k intervalles pour le i-ème intervalle.
Au fur et à mesure
que k devient
grand l'histogramme ressemble de plus en plus à une courbe
continue appelée "courbe Normale" que nous verrons
plus loin.
Dès lors, en nous basant sur le théorème
binomial (cf. chapitre de Calcul Algébrique), nous avons:
(7.7)
Ensuite, pour chaque intervalle i le praticien prendra
par tradition la moyenne entre les deux
bornes pour le calcul et
la multipliera par la fréquence fi de
classe correspondante. Dès lors, le regroupement en fréquence
de classes fait que:
1. La moyenne pondérée par les effectifs
diffère de
la moyenne arithmétique.
2. Vue l'approximation effectuée elle sera un moins bon
indicateur que la moyenne arithmétique.
3. Elle est très sensible au choix du nombre de classes
donc médiocre à ce niveau-là.
Il existe de nombreuses autres règles empiriques de discrétisation
des variables aléatoires. Le logiciel XLStat en propose
par exemple pas moins de 10 (amplitude constante, algorithme de
Fisher, k-means,
20/80, etc.).
Plus loin, nous verrons deux
propriétés extrêmement importantes de la moyenne
arithmétique et de l'espérance mathématique qu'il
vous faudra absolument comprendre (moyenne pondérée
des écarts à la
moyenne et la moyenne des écarts à la moyenne).
Remarque: Le "mode",
noté Mod ou simplement M, est par définition
la valeur qui apparaît le plus grand nombre de fois dans
une série de valeurs. Dans Microsoft Excel 11.8346 (version
française), soulignons que la fonction MODE( ) renvoie
la première
valeur dans l'ordre des valeurs ayant le plus grand nombre d'occurrences
en supposant
donc une distribution unimodale.
Attention! La valeur modale peut être suivant les cas plus grande ou plus petite
que la moyenne. Il n'y a donc pas de règle générale comme quoi
elle sera toujours plus petite que la moyenne contrairement à
ce qui est enseigné dans certains livres de gestion de projets.
D2.
La "médiane" ou "moyenne
milieu", notée (ou
plus simplement M), est
la valeur qui coupe une population en deux parties égales.
Dans le cas d'une distribution statistique continue f(x) d'une
variable aléatoire X, il s'agit de la valeur qui
représente
50% de probabilités
cumulées d'avoir lieu tel que (nous détaillerons
le concept de distribution statistique plus loin très en
détails):
(7.8)
Dans le cas d'une série de valeurs
ordonnées ,
la médiane est donc de
par sa définition la
valeur de la variable telle que l'on ait autant d'éléments
qui ont une valeur qui lui est supérieure ou égale,
que d'éléments qui ont une valeur qui lui est
inférieure
ou égale.
Remarque:
R1. La médiane est principalement utilisée
pour les distributions asymétriques, car elle les représente
mieux que la moyenne arithmétique.
R2. La médiane n'est dans la pratique souvent pas une valeur
unique (du moins dans le cas où n est pair).
Effectivement, entre les valeurs correspondantes aux ranges n/2
et n/2+1
il y a une infinité de valeurs à choix qui coupent la population
en deux.
Plus rigoureusement:
- Si le nombre
de termes est impair, de la forme 2n + 1,
la médiane
de la série est le terme de rang n + 1 (que les termes
soient tous distincts ou non!).
- Si le nombre
de termes est pair, de la forme 2n,
la médiane
de la série est la demi-somme (moyenne arithmétique)
des valeurs des termes de rang n et n + 1 (que
les termes soient tous distincts ou non!).
Dans tous
les cas, de par cette définition, il découle qu'il y a au moins
50 % des termes de la série
inférieurs ou égaux à la médiane, et
au moins 50% des termes de la série supérieurs ou égaux à la
médiane.
Considérons par exemple la table de salaires ci-dessous:
N° Employé |
Salaire |
Cumul employés |
%Cumul employés |
1 |
1200 |
1 |
6% |
2 |
1220 |
2 |
12% |
3 |
1250 |
3 |
18% |
4 |
1300 |
4 |
24% |
5 |
1350 |
5 |
29% |
6 |
1450 |
6 |
35% |
7 |
1450 |
7 |
41% |
8 |
1560 |
8 |
47% |
9 |
1600 |
9 |
53% |
10 |
1800 |
10 |
59% |
11 |
1900 |
11 |
65% |
12 |
2150 |
12 |
71% |
13 |
2310 |
13 |
76% |
14 |
2600 |
14 |
82% |
15 |
3000 |
15 |
88% |
16 |
3400 |
16 |
94% |
17 |
4800 |
17 |
100% |
Tableau: 7.1
- Identification de la médiane
Il y a dans la tableau un nombre impair 2n + 1
de valeurs. Donc la médiane
de la série est le terme de rang n+1.
Soit 1'600.- (résultat
que vous donnera n'importe quel tableur informatique). La moyenne
arithmétique quant à elle vaut 2'020.-.
En relation directe avec
la médiane il est important
de définir le concept suivant afin de comprendre le mécanisme
sous-jacent:
Définition: Soit donnée une série
statistique ,
nous appelons "dispersion
des écarts absolus" autour de x le nombre défini
par:
(7.9)
est
minimum pour une valeur de x la plus proche d'une
valeur donnée au
sens de l'écart absolu. La médiane est la valeur qui réalise
ce minimum (extrémum)! L'idée
va alors consister à étudier
les variations de la fonction pour trouver le rang de cet extrémum.
En effet, nous pouvons écrire:
(7.10)
Donc par définition de la valeur x :
(7.11)
Ce qui nous permet donc de faire sauter les valeurs absolues
est simplement le choix de l'indice r qui est pris de
telle manière
que la série de valeurs peut en pratique toujours être
coupée en deux
parties: tout ce qui est
inférieur à un élément de la série
indexé par r et
tout ce qui lui est supérieur (la médiane donc par
anticipation...).
est
donc une fonction affine (assimilable à l'équation d'une droite
pour r et n fixés) par morceaux (discrète) où l'on
peut assimiler le facteur:
(7.12)
à la
pente et:
(7.13)
à l'ordonnée à l'origine.
La fonction est
donc décroissante (pente négative)
tant que r est inférieur à n/2 et croissante
quand r est
supérieur à n/2 (elle passe donc par un extremum!).
Plus précisément,
nous distinguons deux cas qui nous intéressent particulièrement
puisque n est
un entier:
- Si n est
pair, nous pouvons poser ,
alors la pente peut s'écrire et
elle est nulle si et
dès lors puisque ce résultat n'est valable par construction
que pour alors est
constante sur et
nous avons un extrémum obligatoirement au milieu de cet
intervalle (moyenne arithmétique des deux termes).
- Si n est impair, nous pouvons poser (nous
coupons la série en deux parties égales), alors la
pente peut s'écrire et
elle est donc nulle si et
dès lors puisque ce résultat n'est valable que pour alors
il est immédiat que la valeur du milieu sera la médiane .
Nous retrouvons
donc bien la médiane dans les
deux cas. Nous verrons aussi plus loin comment la médiane
est définie
pour une variable aléatoire continue (l'idée sous-jacent
étant exactement la même).
Il existe un autre cas pratique où le statisticien n'a à sa disposition
que des valeurs regroupées sous forme d'intervalles de classes
statistiques. La procédure pour déterminer la médiane est
alors différente:
Lorsque nous avons à notre disposition uniquement une variable
classée, l'abscisse du point de la médiane se situe en général à l'intérieur
d'une classe. Pour obtenir alors une valeur plus précise de la
médiane, nous procédons à une interpolation linéaire. C'est ce que
nous appelons la "méthode d'interpolation
linéaire de la médiane".
La valeur de la médiane peut être lue sur un graphique
ou calculée
analytiquement. Effectivement, considérons le graphique
représentant
la probabilité cumulée F(x) en
intervalles de classe comme ci-dessous où les bornes des intervalles
ont été reliées par des droites:

Figure: 7.1 - Représentation graphique de l'estimation par interpolation linéaire de
la médiane
La valeur de la médiane M se trouve évidemment
au croisement entre la probabilité cumulée de 50%
(0.5) et l'abscisse. Ainsi, en appliquant les notions élémentaires
d'analyse fonctionnelle, il vient (en observant bien évidemment
que la pente dans l'intervalle contenant la médiane est égale
dans les demi-intervalle de gauche et de celui à droite adjacents
à la médiane):
(7.14)
Ce que nous écrivons fréquemment:
(7.15)
D'où la valeur de la médiane:
(7.16)
Prenons le tableau suivant que nous retrouverons bien plus tard
dans le présent chapitre:
Montant des
tickets |
Nombre de
tickets |
Nombre cumulés
de tickets |
Fréquences
relatives cumulées |
[0,50[ |
668 |
668 |
0.068 |
[50,100[ |
919 |
1'587 |
0.1587 |
[100,150[ |
1'498 |
3'085 |
0.3085 |
[150,200[ |
1'915 |
5'000 |
0.5000 |
[200,250[ |
1'915 |
6'915 |
0.6915 |
[250,300[ |
1'498 |
8'413 |
0.8413 |
[300,350[ |
919 |
9'332 |
0.9332 |
[350,400[ |
440 |
9'772 |
0.9772 |
[400 et + |
228 |
10'000 |
1 |
Tableau: 7.2
- Identification de la classe médiane et du mode
Nous voyons que la "classe médiane" est
dans l'intervalle [150,200] car la valeur cumulée de 0.5
s'y trouve (colonne toute à droite du tableau) mais la médiane
a elle, en utilisant la relation établie précédemment,
précisément
une valeur de (c'est trivial dans l'exemple particulier du tableau
ci-dessus mais faisons quand même le calcul...):
(7.17)
et nous pouvons faire de même avec n'importe quel autre centile
bien évidemment!
Nous pouvons également donner une définition pour
déterminer
la valeur modale si nous sommes seulement en possession des fréquences
des classes d'intervalles. Pour cela partons du diagramme appelée
"distribution groupée" en barre des fréquences
ci-dessous:

Figure: 7.2 - Représentation graphique de l'estimation par classess d'intervalles
de la
valeur
modale
En utilisant les relations de Thalès (cf.
chapitre de Géométrie Euclidienne), nous avons immédiatement,
en notant M la valeur modale:
(7.18)
Comme dans une proportion, nous ne changeons pas la valeur du
rapport en additionnant les numérateurs et en additionnant
les dénominateurs,
il vient:
(7.19)
Nous avons alors:
(7.20)
Avec l'exemple précédent cela donne alors:
(7.21)
La question qui
se pose ensuite est celle de la pertinence du choix de la moyenne,
du mode ou de la médiane en termes de communication...
Un bon exemple reste celui du marché du
travail où
de façon générale, alors que le salaire
moyen et le salaire médian sont relativement différents,
les institutions de statistiques étatiques calculent la
médiane
que beaucoup de médias traditionnels assimilent alors explicitement
au concept de "moyenne arithmétique" dans
leurs communiqués...
Remarque:
Pour éviter d'obtenir
une moyenne arithmétique ayant peu de sens, nous calculons souvent
une "moyenne élaguée",
c'est à dire
une moyenne arithmétique calculée après avoir enlevé des valeurs aberrantes à la
série.
Les "quantiles"
généralisent la notion de médiane en coupant
la distribution en des ensembles donnés de parties égales
(de même
cardinal pourrions-nous dire...) ou autrement dit en intervalles
réguliers.
Nous définissons ainsi les "quartiles",
les "déciles" et
les "centiles"
(ou "percentiles") sur la
population, ordonnée dans l'ordre croissant, que nous divisons
en 4, 10 ou 100 parties de même effectif.
Nous parlerons ainsi du centile 90 pour indiquer la valeur séparant
les premiers 90% de la population des 10% restants.
Précisons
que dans la version francophone de Microsoft Excel 11.8346 les fonctions
QUARTILE( ), CENTILE( ), MEDIANE( ), RANG.POURCENTAGE ( ) sont
disponibles
et spécifions
qu'il existe plusieurs variantes de calcul de ces centiles d'où une
variation possible entre les résultats sur différents
logiciels.
Ce concept est très
important dans le cadre des intervalles de confiance que nous
verrons
beaucoup plus loin dans ce chapitre et très utile dans le
domaine de la qualité avec l'utilisation des boîtes à moustaches
(traduction de Box & Whiskers Plot ou BoxPlot) permettant
de comparer ("discriminer" comme disent les spécialistes)
rapidement deux populations de données
ou plus et surtout d'éliminer les valeurs aberrantes (prendre
comme référence
la médiane
sera justement plus judicieux!):

Figure: 7.3 - Box & Whiskers Plot
Une autre représentation mentale très importante
des boîtes
à moustache est la suivante (elle permet donc de se donner
une idée de l'asymétrie de la distribution):


Figure: 7.4 - Représentation graphique du mode, de la médiane et des quartiles
par rapport à une distribution
Les notions de médiane, valeurs abérrantes et intervalles de
confiance que nous venons de démontrer et/ou de citer sont à ce
point importantes qu'il existe des normes internationales pour
les utiliser correctement. Citons d'abord la norme ISO 16269-7:2001 Médiane
- Estimation et intervalles de confiance et aussi la norme
ISO 16269-4:2010 Détection et traitement des valeurs aberrantes.
D3. Par analogie avec la médiane, nous définissons
la "médiale" comme étant
la valeur (dans l'ordre croissant des valeurs) qui partage la
somme (cumuls) des valeurs en deux masses égales (donc la
somme totale divisée par deux).
Dans le cas de salaires, alors que le médiane donne le
50% des salaires se trouvant en-dessous et en-dessus, la médiale
donne combien de salariés
se partagent (et donc le salaire partageant) la première
moitié et
combien de salariés
se partagent la seconde moitié de l'ensemble des coûts
salariaux.
Par exemple pour revenir à notre tableau sur les salaires:
N° Employé |
Salaire |
Cumul salaire |
%Cumulé salaire |
1 |
1200 |
1200 |
3.5% |
2 |
1220 |
2420 |
7% |
3 |
1250 |
3670 |
10.7% |
4 |
1300 |
4970 |
14.5% |
5 |
1350 |
6320 |
18.4% |
6 |
1450 |
7770 |
22.6% |
7 |
1450 |
9220 |
26.8% |
8 |
1560 |
10780 |
31.4% |
9 |
1600 |
12380 |
36.1% |
10 |
1800 |
14180 |
41.3% |
11 |
1900 |
16080 |
46.8% |
12 |
2150 |
18230 |
53.1% |
13 |
2310 |
20540 |
59.8% |
14 |
2600 |
23140 |
67.4% |
15 |
3000 |
26140 |
76.1% |
16 |
3400 |
29540 |
86% |
17 |
4800 |
34340 |
100% |
Tableau: 7.3
- Identification de la médiale
La somme de tous les salaires fait donc 34'340
et la médiale est alors 17'170 (entre l'employé n°11
et 12) alors que la médiane était de 1'600. Nous
voyons alors que la médiale correspond au 50% du cumul.
Ce qui est un indicateur très utile dans le cadre des
analyses de Pareto ou de Lorenz par exemple (cf.
chapitre de Technique de Gestion).
D4. La "moyenne quadratique" parfois
simplement notée Q qui
est définie par:
(7.22)
avec m = 2.
Remarque: C'est une des moyennes les plus connues en statistiques
car l'écart-type est une moyenne quadratique (voir plus
loin).
Exemple:
Soit un
carré de côté a,
et un autre carré de côté b.
La moyenne des aires des deux carrés est égale à un
carré
de côté:
(7.23)
D5. La "moyenne harmonique"
parfois simplement notée H est définie
par:
(7.24)
Elle est peu connue en dehors de la finance mais découle
souvent de raisonnements simples et pertinents (typiquement la
résistance équivalente
d'un circuit électrique
ayant plusieurs résistances en parallèles).
Il existe une fonction MOYENNE.HARMONIQUE( ) dans Microsoft
Excel 11.8346 (version française) pour la calculer.
Por introduire cette moyenne considérons le cas scolaire d'une
distance d parcourue
dans un sens à la vitesse et
dans l'autre (ou pas) à la vitesse .
La vitesse moyenne arithmétique s'obtiendra en divisant
la distance totale 2d
par le temps mis à la parcourir:
(7.25)
Si
nous calculons le temps mis lorsqu'on parcourt d avec une
vitesse c'est
tout simplement le quotient:
(7.26)
Le
temps total vaut donc:
(7.27)
La
vitesse moyenne est alors si les deux distances sont les mêmes:
(7.28)
La moyenne harmonique n'est donc qu'au point de vue calculatoire
qu'un cas particulier de moyenne arithmétique de ratios
dont le numérateur est toujours égal et qui se simplifie
en moyenne harmonique.
En d'autres termes: Nous utilisons la moyenne harmonique lorsque
nous sont données des grandeurs qui sont des ratios et dont
les numérateurs (les distances) sont égales ou ramenées à être
égales! Par exemple en finance où nous avons parfois des
ratios qui représentent des rendements P/E (Price/Earning: pour
ratio Prix sur Retour), pour pouvoir utiliser la moyenne harmonique
il faut alors que le
numérateur
(prix)
soit le même pour tous les investissements.
Exemples:
E1. Trois investissements ont un ratio Prix/Retour de respectivement
104%, 106% et 109% (donc a perdu de l'argent dans tous les trois
investissements dans ce cas particulier). Sachant que le prix des
trois investissements était
initialement le même,
nous
utilisons la moyenne harmonique:
(7.29)
Alors qu'une moyenne arithmétique donnerait
environ 106.33%. Ce qui fait une différence importante quand
nous gérons des millions en numéraires!
Remarquons au passage l'écriture suivante
qui montre que la moyenne harmonique est un cas particulier de
la "moyenne arithmétique pondérée":
(7.30)
Si tous les poids sont tels que alors
nous retrouvons la moyenne arithmétique standard..
E2. Considérons qu'un investisseur nous mette chaque
mois à disposition 300.- pour acheter un actif donné. Le premier
mois cet actif vaut 9.- donc nous pouvons en acheter 33.333 unités,
le deuxième mois l'actif vaut 11.- donc nous pouvons en acheter
27.27227 unités,
enfin le dernier et le troisième mois l'actif vaut 4.- nous pouvons
donc en acheter 75 unités. La question est alors de savoir quel
est le prix moyen de cet actif dans notre portefeuille. Nous avons
alors:
(7.31)
D6.
La "moyenne
géométrique" parfois notée simplement G est
définie
par:
(7.32)
Cette
moyenne est
souvent oubliée mais néanmoins très connue
dans le domaine de l'économétrie
(surtout quand nous étudierons
le rendement géométrique
moyen) et de la finance d'entreprise (cf.
chapitre Techniques De Gestion) raison pour laquelle
il existe une fonction MOYENNE.GEOMETRIQUE( ) dans Microsoft
Excel 11.8346 (version française) pour la calculer.
Comme avec les valeurs nulles, il est impossible de calculer
la moyenne géométrique
de nombres négatifs. Cependant, il existe plusieurs solutions
de contournement pour ce problème, qui exigent toutes que
les valeurs négatives soient converties ou transformées
en une valeur équivalente positive. Le plus
souvent, ce problème se pose lorsque l'on désire
calculer la moyenne géométrique d'un changement en
pourcents dans une population ou un retour financier, qui peut
comprendre bien évidemment des nombres négatifs.
Par exemple, pour calculer la moyenne géométrique
des valeurs de 12%, -8%, 0% et 2%, nous calculerons la
moyenne géométrique de leurs multiplicateurs équivalents
décimaux
qui sont 1.12, 0.92, 1, 1.02 et 1 pour obtenir une moyenne
géométrique de 1.0125. Soustrayant 1 de cette valeur
donne la moyenne géométrique de 1.25% (ou dans les
milieux financiers on parlera de "taux
de croissance annuel composé (TCAC)").
Exemple:
Supposons qu'une banque offre une possibilité de placement
et prévoit
pour la première année un intérêt (c'est absurde
mais c'est un exemple) avec un taux ,
mais pour la deuxième année un intérêt avec
un taux . Au
même moment une autre banque offre un intérêt à taux
constant pour deux ans: X %. C'est
pareil, dirons-nous un peu rapidement. En fait les deux placements
n'ont pas la même rentabilité.
Dans
la première banque, un capital donnera
au bout de la première année un intérêt:
(7.33)
et
la seconde année:
(7.34)
Dans
l'autre banque nous aurons au bout d'un an:
(7.35)
et
après la seconde année:
(7.36)
etc...
Comme
vous pouvez le voir le placement ne sera pas identique si !
X % n'est
donc pas la moyenne arithmétique de et .
Posons
maintenant:
et
(7.37)
Quelle
est en fait la valeur moyenne r?
Au
bout de deux ans le capital est multiplié par .
Si la moyenne vaut r il
sera alors multiplié par .
Nous avons donc la relation:
(7.38)
C'est
un exemple d'application où nous retrouvons donc la moyenne géométrique.
L'oubli de l'utilisation de la moyenne géométrique
est une erreur fréquente
dans les entreprises lorsque certains employés calculent
le taux moyen d'augmentation d'une valeur de référence.
D7.
La
"moyenne mobile", appelée
aussi "moyenne
glissante" est définie
par:
(7.39)
La moyenne
mobile est particulièrement utilisée en économie, où elle
permet de représenter une courbe de tendance d'une série de valeurs,
dont le nombre de points est
égal au nombre total de points de la série de valeurs moins le
nombre que vous spécifiez pour la période.
Une moyenne mobile en finance est calculée
à partir des moyennes des cours d'une valeur, sur une période
donnée:
chaque point d'une moyenne mobile sur 100 séances
est la moyenne des 100 derniers cours de la valeur considérée.
Cette courbe, affichée simultanément avec la courbe
d'évolution
des cours de la valeur, permet de lisser les variations journalières
de la valeur, et de dégager des tendances.
Les moyennes
mobiles peuvent être calculées sur différentes périodes,
ce qui permet de dégager des tendances à court terme MMC (20
séances
selon les habitudes de la branche), moyen terme (50-100 séances)
ou long terme MML (plus de 100 séances).

Figure: 7.5 - Représentation graphique des quelques moyennes mobiles
Les croisements des moyennes mobiles par la courbe des
cours (découpée avec une certaine granularité) de la valeur génèrent
des signaux d'achat ou de vente (selon les professionnels) suivant
le
cas:
- Signal d'achat: lorsque la courbe des cours franchit
la MM vers le haut.
-
Signal de vente: lorsque la courbe des cours franchit la MM vers
le bas.
Outre la moyenne mobile, précisons qu'il existe une quantité d'autres
indicateurs artificiels souvent utilisés en finance comme par
exemple le "upside/downside
ratio".
L'idée est la suivante: Si vous avez un produit financier
(cf.
chapitre d'Économie) actuellement de prix (prix
courant) pour lequel vous avez un objectif de gain haut à un
prix haut correspondant que nous noterons (high
price) et inversement le potentiel de perte que vous estimez à un
prix (low
price).
Alors, le rapport:
(7.40)
donne le Upside/Downside Ratio.
Par exemple, un produit financier de 10.- avec un prix bas de
5.- et un prix haut de 15.- a donc un ratio et
donc un facteur spéculatif identique pour permettre le gain
ou une perte de 5.-.
Un produit financier de 10.- avec un prix bas de 5.- et un prix
haut de 20.- a donc un donc
deux fois le potentiel spéculatif de gain par rapport à celui de
perte.
Certaines associations boursières recommandent de refuser les inférieurs à 3.
Les investisseurs ont tendance à rejeter les trop élevés
pouvant être un signe de gonflage artificiel.
D8.
La "moyenne pondérée" (dont
nous avons déjà fait mention plus haut d'un
cas particulier) est
définie par:
(7.41)
et
est utilisée
par exemple en géométrie
pour localiser le barycentre d'un polygone, en physique pour
déterminer
le centre de gravité ou en statistiques pour calculer
une espérance (le dénominateur étant
toujours
égal à l'unité en probabilités) et
en gestion de projets pour estimer les durées des tâches.
Dans le cas général
le poids
représente l'influence pondérée ou arbitraire/empirique
de l'élément
par rapport aux autres.
D9. La "moyenne
fonctionnelle"
ou "moyenne intégrale" est
définie par:
(7.42)
où
dépend d'une fonction f d'une variable réelle
intégrable
(cf. chapitre de Calcul Différentiel
Et Intégral)
sur un intervalle [a,b]. Elle est très souvent
utilisée en théorie du signal (électronique, électrotechnique).
LISSAGE DE LAPLACE
Pour en revenir à nos fréquences de classes vues
bien plus haut et avant de continuer avec l'étude de quelques
propriétés mathématiques des moyennes... il faut savoir que lorsque
nous travaillons avec des lois discrètes
de probabilités
il arrive très (très)
fréquemment que nous
rencontrions un problème typique dont la source est la taille de la population.
Considérons comme exemple le cas où nous avons 12 documents et
que nous souhaiterions estimer la
probabilité d'occurrence du mot "Viagra". Nous avons sur un échantillon
les
valeurs suivantes:
Identifiant document
|
Occurrences du mot
|
1
|
1
|
2
|
0
|
3
|
2
|
4
|
0
|
5
|
4
|
6
|
6
|
7
|
3
|
8
|
0
|
9
|
6
|
10
|
2
|
11
|
0
|
12
|
1
|
Tableau: 7.4 - Fréquences de classe du mot
Tableau que nous pouvons représenter d'une autre manière:
Occurrences du mot
|
Documents
|
Probabilité
|
0
|
4
|
0.33
|
1
|
2
|
0.17
|
2
|
2
|
0.17
|
3
|
1
|
0.083
|
4
|
1
|
0.083
|
5
|
0
|
0
|
6
|
2
|
0.17
|
Tableau: 7.5 - Fréquences de classe respective des documents
Et ici nous avons un phénomène courant. Il n'y a aucun document
avec 5 occurrences du mot qui nous
intéresse. L'idée (très courante dans le domaine du Data Mining) est alors
d'ajouter artificiellement et empiriquement un comptage en utilisant une technique
appelée "lissage de Laplace" qui consiste à additionner k unités à chaque
occurrence. Dès lors le tableau
devient:
Occurrences du mot
|
Documents
|
Probabilité
|
0
|
5
|
0.26
|
1
|
3
|
0.16
|
2
|
3
|
0.16
|
3
|
2
|
0.11
|
4
|
2
|
0.11
|
5
|
1
|
0.05
|
6
|
3
|
0.16
|
Tableau: 7.6 - Fréquences de classes des documents avec lissage
Évidemment ce type de technique est sujet à débat
et sort du cadre scientifique... Nous avons même hésité à présenter
cette technique dans le chapitre de Méthodes Numériques (avec le
reste de toutes les techniques numériques empiriques)...
PROPRIÉTÉS
DES MOYENNES
Voyons
maintenant quelques propriétés pertinentes qui relient quelques-unes
de ces moyennes ou qui sont propres à une moyenne donnée.
Les
premières
propriétés sont importantes donc
prenez garde à bien
les comprendre:
P1. Le calcul des moyennes
arithmétique, quadratique et harmonique peut être
généralisé à l'aide de la relation
suivante:
(7.43)
où nous retrouvons:
1. Pour ,
la moyenne arithmétique
2. Pour ,
la moyenne quadratique
3. Pour ,
la moyenne harmonique
P2. La moyenne arithmétique
a une propriété de
linéarité,
c'est-à-dire que (sans démonstration car simple à vérifier):
(7.44)
C'est
la version statistique de la propriété de
l'espérance en probabilité que nous verrons plus
loin (l'espérance est linéaire que les variables aéatoires soient
dépendantes ou non!).
P3. La somme pondérée
des écarts à
la moyenne arithmétique est nulle.
Démonstration:
D'abord, par définition,
nous savons que:
et
(7.45)
il s'ensuit que:
(7.46)
Ainsi, cet outil ne peut être utilisé comme mesure
de dispersion!
Par extension la moyenne arithmétique des écarts pondérés à la
moyenne par les effectifs est nulle aussi:
(7.47)
C.Q.F.D.
Ce résultat est relativement important car
il permettra plus loin de mieux saisir le concept d'écart-type
et
de variance.
P4. Soit à démontrer:
(7.48)
Démonstration:
Tout d'abord, nous prenons
deux nombres réels
non nuls et tels
que et
nous écrivons:
1. La moyenne arithmétique:
(7.49)
2. La moyenne géométrique:
(7.50)
3. La moyenne harmonique:
(7.51)
4. La moyenne quadratique:
(7.52)
Remarque: Les comparaisons entre les moyennes précitées
et la médiane ou encore les moyennes glissantes et pondérées
n'ont pas de sens c'est pour cela que nous nous abstenons à
les faire.
Prouvons déjà que
par l'absurde en posant :
(7.53)
Par commodité posons:
(7.54)
Et nous
savons que .
Or:
(7.55)
Et nous
cherchons alors à montrer que:
(7.56)
n'est
pas possible. Mais ceci découle des équivalences
suivantes:
(7.57)
Il y a donc contradiction
ce qui vérifie notre
hypothèse initiale:
(7.58)
Regardons maintenant si :
Sous l'hypothèse .
Nous cherchons donc maintenant à montrer que:
(7.59)
Or nous
avons les équivalences suivantes:
(7.60)
et la
dernière expression est évidemment correcte.
Or le carré d'un nombre
(réel) est toujours positif ce qui vérifie notre
hypothèse
initiale:
(7.61)
Nous allons démontrer maintenant
par l'absurde en posant :
(7.62)
Or le carré d'un nombre (réel)
est toujours positif ce qui vérifie notre hypothèse
initiale:
(7.63)
Nous avons donc bien:
(7.64)
C.Q.F.D.
Il est important de remarquer ici (car c'est une erreur fréquente
dans les entreprise et administrations) que la moyenne géométrique
est inférieure à la moyenne arithmétique. Ce qui suivant les cas
pratiques peut être une erreur de confusion favorable ou défavorable
à la personne qui utilise la moyenne arithmétique en lieu et place
de la moyenne géométrique.
Ces inégalités
démontrées, nous pouvons alors passer à une
figure que nous attribuons à Archimède pour placer
trois de ces moyennes. L'intérêt de cet exemple
est de montrer qu'il existe des relations remarquables parfois
entre
la statistique et la géométrie (fruit du hasard ???).

Figure: 7.6 - Point de départ pour la représentation géométrique des moyennes
Nous allons d'abord poser
et O est le milieu de
. Ainsi, le cercle dessiné
est de centre O et de rayon .
D est l'intersection de la perpendiculaire à
passant par B et du cercle (nous choisissons l'intersection que nous voulons). H est
quant à lui le projeté orthogonal de B
sur .
Archimède affirme
que est la moyenne arithmétique de a et b et que
est la moyenne géométrique de a et b,
et
la moyenne harmonique de a et b.
Nous démontrons donc que
(trivial):
(7.65)
Donc est bien la moyenne arithmétique
de a et b.
Ensuite nous avons dans le
triangle rectangle ADB:
(7.66)
Puis dans le triangle rectangle
BDC nous
avons:
(7.67)
Nous additionnons alors ces
deux égalités, et nous trouvons:
(7.68)
Nous savons que D
est sur un cercle de diamètre ,
donc ADC est rectangle en D. Alors:
(7.69)
Puis nous remplaçons
et
par a et b:
(7.70)
Et donc, est
bien la moyenne géométrique de
a et b.
Nous reste à prouver
alors que est
la moyenne harmonique de a et b. Nous avons dans
un premier temps (projection orthogonale):
(7.71)
Puis nous avons également (projection orthogonale aussi):
(7.72)
Nous avons donc:
(7.73)
et comme
, nous avons donc:
(7.74)
est
donc bien la moyenne harmonique de a et b. Archimède
ne s'était pas trompé!
TYPES DE VARIABLES
Lorsque nous avons parlé des échantillons au début
de ce chapitre, nous avons fait mention de deux types d'informations:
les variables quantitatives et qualitatives. Nous n'avons cependant
pas précisé qu'il existait trois types de variables
quantitatives très importantes qu'il convient absolument
de différencier:
1. Les "variables discrètes" (par
comptage): Sont analysées avec des lois statistiques basées
sur un domaine de définition dénombrable toujours
strictement positif (lois de Poisson ou hypergéométrique typiquement
dans l'industrie). Sont quasiment toujours représentées
sous forme graphique par des histogrammes.
2. Les "variables continues" (par
mesure): Sont analysées avec des lois statistiques basées
sur un domaine de définition non dénombrable strictement
positif ou pouvant prendre toute valeur positive ou négative
(loi Normale typiquement dans l'industrie). Sont également
quasiment toujours représentées sous forme graphique
par des histogrammes avec des intervalles de classe.
3. Les "variables par attribut" (de
classification): Il ne s'agit pas de données numériques
mais de données qualitatives de type {Oui, Non}, {Réussi, Échec},
{A temps, En retard}, {rouge, vert, bleu, noir}, etc. Les données
de type attribut binaire suivent une loi de Bernoulli alors que
les variables qualitatives d'ordre supérieurs n'ont ni moyenne
ni écart-type (effectivement... cherchez la la moyenne et l'écart-type
entre les variables qualitatives Rouge, Vert et Rose....).
Comprendre les différents types de données est une
discipline importante de l'ingénieur parce que cela a des
conséquences
importantes sur le type d'analyse, les outils et techniques qui
seront employés.
Une question fréquente concernant
la collecte de données est de savoir quelle est la quantité qui
devrait être
collectée. Au
fait cela dépend du niveau de précision souhaité.
Nous verrons beaucoup plus loin dans ce chapitre (avec démonstration)
comment déterminer mathématiquement la quantité de
données à collecter.
Maintenant que le concept de moyenne nous est relativement bien
connu, nous allons pouvoir aborder des calculs plus formels et
qui prendront tout leur sens.
VARIABLES DISCRÈTES
Soit X
une variable indépendante (un individu d'un échantillon
dont la propriété
est indépendante des autres individus) qui
peut prendre les valeurs aléatoires discrètes
dans (réalisations
du vecteur )
avec les probabilités respectives où,
de par l'axiomatique des probabilités:
(7.75)
Définitions:
D1. Soit X une variable aléatoire (v.a.) numérique
(quantitative). Elle est complètement décrite par
la valeur de la probabilité (pour les variables discrètes)
ou par la probabilité cumulée (pour les variables
continues) pour qu'une réalisation de cette variable soit
inférieure à x pour tout x.
Cette probabilité (cumulée) est notée:
(7.76)
avec:
(7.77)
où F(x) s'appelle la "fonction
de répartition" de
la variable X. C'est la proportion théorique de
la population considérée dont la valeur est inférieure
ou égale à x. Il s'ensuit:
(7.78)
Plus généralement, pour toute paire
de nombres a et b avec ,
nous avons:
(7.79)
Cette définition s'applique bien évidemment aussi aux variables
continues.
D2. La "fonction de répartition
empirique" est quant à elle
définie naturellement par (nous avons indiqué les
différentes notations courantes dans la littérature):
(7.80)
associé à l'échantillon de variables aléatoires
indépendantes et identiquement distribuées (ce que
l'on nomme aussi un "vecteur aléatoire" noté ).
Il s'agit simplement du cumul normalisé à l'unité des
fréquences
d'apparition en-dessous d'un certaine valeur fixée (démarche
que la majorité des êtres humains font naturellement en cherchant
la fonction de répartition).
Donc si nous reprenons l'exemple de salaires, vu plus haut,
nous avons alors par exemple pour x fixé à 1'800:
Salaires ordonnés
 |
Fréquence
|
1200 |
1 |
1220 |
1 |
1250 |
1 |
1300 |
1 |
1350 |
1 |
1450 |
1 |
1450 |
1 |
1560 |
1 |
1600 |
1 |
1800 |
1 |
1900 |
0 |
2150 |
0 |
2310 |
0 |
2600 |
0 |
3000 |
0 |
3400 |
0 |
4800 |
0 |
Figure: 7.7 - Exemple de la fonction de répartition empirique
et donc:
(7.81)
La fonction de répartition est clairement une fonction
monotone croissante (ou plus précisément "non
décroissante") dont les valeurs vont de 0 à 1.
Voyons une propriété que nous utiliserons plusieurs
fois et qui est importante dans la pratique (propriétété valable
aussi bien pour les variables aléatoires discrètes que continues):
Soit X une variable aléatoire de fonction de répartition
et
de fonction de densité (rappel:
)
et une
constante. Nous voulons déterminer
la fonction de répartition et la fonction de densité de
la v.a. à partir de et
respectivement.
Par définition pour :
(7.82)
Ainsi:
(7.83)
En ce qui concerne la fonction de densité nous
avons:
(7.84)
Ainsi:
(7.85)
ESPÉRANCE ET VARIANCE DE V.A. discrètes
Définition: Nous définissons "l'espérance
mathématique", appelée aussi "moment
d'ordre 1", de
la variable aléatoire X
par la relation:
(7.86)
appelée aussi "règle des parties".
En d'autres termes, nous
savons qu'à chaque événement de l'espace des
échantillons est associé une probabilité à
laquelle nous associons également une valeur (donnée
par la variable aléatoire). La question étant alors
de savoir quelle valeur, à long terme, nous pouvons obtenir?
La valeur espérée, (l'espérance mathématique
donc...) est alors la moyenne pondérée, par la
probabilité,
de toutes les valeurs des événements de l'espace
des
échantillons.
Si la probabilité est donnée
par une fonction de distribution (voir les définitions des fonctions
de distribution plus bas) de la variable aléatoire, nous avons:
(7.87)
Voici les propriétés
mathématiques les plus importantes de l'espérance
pour toute variable aléatoire (quelle que soit sa loi de
distribution!) ou pour toute série de variables aléatoires
et que nous utiliserons souvent tout au long de ce chapitre:
P1.
Multiplication par une constante:
(7.89)
P2.
Somme de deux variables aléatoires:
(7.90)
où nous avons utilisé dans la 4ème ligne, la propriété vue dans
le chapitre de Probabilités:
(7.91)
Nous en déduisons que pour n variables aléatoires ,
non nécessairement définies sur une même loi de distribution:
(7.92)
P3.
Espérance d'une constante:
(7.93)
P4. Espérance du produit de deux variables
aléatoires:
(7.94)
Et si les deux variables aléatoires
sont indépendantes,
alors la probabilité conjointe est égale au
produite des probabilités. Il vient alors:
(7.95)
Donc l'espérance du produit de variables aléatoires
indépendantes est toujours égal au produit des espérances.
Évidemment, nous supposerons comme évident
que ces quatre propriétés s'étendent
au cas continu!
Définition: Après avoir traduit la tendance
par l'espérance il est intéressant de traduire la
dispersion ou
"déviation standard" autour
de l'espérance par une valeur appelée
"variance de X" ou
encore "moment centré du deuxième
ordre",
notée V(X) ou
(lire
"sigma-deux") et donnée sous sa forme discrète
par:
(7.96)
La variance n'est cependant
pas comparable directement à la moyenne, car l'unité
de la variance est le carré de l'unité de la variable
aléatoire, ce qui découle directement de sa définition.
Pour que l'indicateur de dispersion puisse être comparé aux
paramètres de tendance centrale (moyenne, médiane
et... mode), il suffit alors de prendre la racine carrée
de la variance.
Par commodité, nous
définissons ainsi "l'écart-type"
de X,
noté ,
par:
(7.97)
L'écart-type
est donc la moyenne quadratique des écarts (ou "écart
moyen quadratique") entre
les observations et leur moyenne.
Remarques:
R1. L'écart-type
de la variable aléatoire X peut être noté s'il
n'y pas de confusion possible.
R2. L'écart-type et la variance sont, dans la littérature,
souvent appelés "paramètres
de dispersion" à l'opposé de la moyenne, mode et
médiane qui sont appelés des "paramètres
de position".
Définition: Le rapport
(exprimé en %) souvent utilisé dans les entreprises
comme comparaison de la moyenne et de l'écart-type est
appelé
le "coefficient de variation" (C.V.)
car il n'a pas d'unités (ce qui est son avantage)
et parce que plusieurs méthodes industrielles statistiques
considèrent qu'un
bon C.V. doit idéalement être juste de l'ordre de
quelques % seulement.
Ainsi, dans la pratique nous considérons que:
Coefficient de Variation
|
Qualité
|
20%
|
Médiocre
|
10%
|
Acceptable
|
5%
|
Contrôlé
|
2.5%
|
Excellent
|
1.25%
|
Classe mondiale
|
0.0625%
|
Rarement atteint
|
Tableau: 7.7 - Jugements qualitatifs du C.V. communément admis
Pourquoi trouvons-nous un
carré (réciproquement une racine) dans la définition
de la variance? La raison intuitive est simple (la rigoureuse l'est
nettement
moins...). Souvenez-vous que nous avons démontré plus
haut que la somme des écarts à la moyenne pondérés
par les effectifs, est toujours nulle:
(7.98)
Or, si nous assimilons les effectifs par la probabilité en
normalisant ceux-ci par rapport à n, nous tombons
sur une relation qui est la même que la variance à la
différence que le terme entre
parenthèse n'est pas au carré. Et nous voyons alors
immédiatement
le problème... la mesure de dispersion serait toujours nulle
d'où
la nécessité de porter cela au carré.
Nous pourrions imaginer cependant d'utiliser la valeur absolue
des écarts
à la moyenne, mais
pour un certain nombre de raisons que nous verrons plus loin lors
de
notre étude
des estimateurs, le choix de porter au carré s'impose
assez naturellement.
Signalons cependant quand même l'utilisation courante
dans l'industrie deux autres indicateurs fréquents de la dispersion:
- "L'écart absolu moyen"
(moyenne des valeurs absolues des écarts à la
moyenne):
(7.99)
qui est un indicateur élémentaire très utilisé lorsque
nous ne souhaitons pas faire de l'inférence statistique
sur une série
de mesures. Cet écart
peut être facilement calculé dans la version française Microsoft
Excel 11.8346 à l'aide
de la fonction ECART.MOYEN( ).
- La "déviation
absolue de la médiane" notée
MAD (médiane des valeurs absolues des écarts à la
médiane):
(7.100)
qui est considérée comme un indicateur plus
robuste de la dispersion que ceux donnés par l'écart absolu
moyen ou l'écart-type (malheureusement cet indicateur n'est
pas intégré à ma connaissances nativement dans les
tableurs).
Exemple:
Considérons les mesures d'une variable aléatoire X:
(7.101)
dont
la médiane vaut:
(7.102)
Les déviations absolues par rapport à la
médiane sont
alors:
(7.103)
Mis dans l'ordre croissant, nous avons alors:
(7.104)
où nous identifions facilement la déviation absolue de la médiane
qui vaut:
(7.105)
Dans le cas où nous avons
à disposition une série de mesures, nous pouvons estimer
la valeur expérimentale de la moyenne (l'espérance)
et de la variance par les estimateurs suivants (il
s'agit simplement
au
fait de
l'espérance
et l'écart-type d'un échantillon dont les événements
sont tous équiprobables)
dont la notation est particulière:
et
(7.106)
Démonstration:
(7.107)
C.Q.F.D.
Et démontrons un petite propriété bien sympathique
comme quoi la moyenne arithmétique est un optimum de la somme des
carrés des
écarts. Effectivement, nous avons:
(7.108)
et si nous cherchons tel
que la dérivée de l'expression ci-dessus est nulle:
(7.109)
alors est
un optimum. Nous avons alors:
(7.110)
soit après réarrangement et simplification élémentaire:
(7.111)
Il s'agit donc bien de la moyenne arithmétique.
Maintenant pour savoir s'il s'agit d'un extrema de type maximum
ou minimum
il suffit de faire la dérivée seconde et de voir
que cela donne une constante positive (donc la dérivée
première augmente quand
augmente).
Il s'agit alors d'un bien extrema de type minimum!!!
Le terme de la somme se trouvant dans l'expression
de la variance (écart-type) est appelée "somme
des carrés
des écarts à la moyenne" ou "somme
des carrés des erreurs à la moyenne".
Nous l'appelons aussi la "somme des
carrés
totale",
ou encore la "variation totale" dans
le cadre de l'étude de l'ANOVA (voir la fin de ce chapitre).
Avant de poursuivre, rappelons le concept de moyenne
géométrique vu plus haut (très utilisée pour les rendements en
finance ou les analyses de croissances en % de chiffres d'affaires
ou ventes):
(7.112)
C'est bien joli mais les financiers ont besoin de
calculer aussi l'écart-type d'une telle moyenne. L'idée
est alors d'en prendre le logarithme pour la ramener à une
simple moyenne arithmétique (il s'agit toujours bien évidemment
d'estimateurs!):
(7.113)
Dès
lors, puisqu'en prenant le logarithme des valeurs nous nous
ramenons à la moyenne arithmétique du logarithme
des valeurs, alors le logarithme de l'écart-type géométrique
(avec un raisonnement à la
physicienne...) sera:
(7.114)
Il suffit alors de prendre l'exponentielle de l'écart-type
des logarithmes des valeurs pour avoir "l'écart-type
géométrique":
(7.115)
La variance peut également
s'écrire sous la forme très importante de la "relation
de Huyghens" appelée également "théorème
de König-Huyghens"
ou "théorème de translation de Steiner" que nous réutiliserons
plusieurs fois par la suite. Voyons de quoi il s'agit:
(7.116)
Faisons maintenant un petit crochet relativement à un
scénario
fréquent générateur d'erreurs dans les entreprises
lorsque plusieurs séries statistiques sont manipulées
(cas très fréquent dans l'industrie ainsi que dans
les assurances ou la finance).
Considérons deux séries statistiques portant sur le même
caractère:
- ,
effectif total n, moyenne , écart-type 
- ,
effectif total m, moyenne , écart-type 
Nous avons
alors:
(7.117)
Donc la moyenne des moyennes n'est pas égale à la moyenne globale
(première erreur fréquente dans les entreprises) exceptée
si les deux séries
statistiques ont le même nombre
d'effectifs!!!
Concernant l'écart-type, rappelons d'abord que nous avons:
(7.118)
Pour la suite, rappelons que nous avons démontré précédemment
la relation de Huygens:
(7.119)
Il vient alors:

(7.120)
Donc nous voyons que l'écart-type global n'est pas égal à la
somme des écarts-types (deuxième erreur courante
dans les entreprises)
excepté si
les effectifs et les moyennes sont les mêmes dans les
deux séries!!!
Considérons maintenant X une variable aléatoire
d'espérance (valeur
constante et déterminée) et de variance (valeur
constante et déterminée), nous définissons
la "variable
centrée réduite" par la relation:
(7.121)
et nous
démontrons de façon très simple en utilisant
la propriété
de linéarité de l'espérance et la propriété de
multiplication par un scalaire de la variance (voir de suite après)
que:
(7.122)
Démonstration:
(7.123)
et en utilisant la relation de Huyghens:
(7.124)
C.Q.F.D.
Ainsi, toute répartition statistique définie par
une moyenne et un écart-type peut être transformée
en une autre distribution statistique souvent plus simple à analyser.
Ainsi en faisant cette transformation, nous obtenons une variable
aléatoire dont les paramètres de la loi de distribution
ne sont plus utiles à connaître. Quand nous faisons
cela avec d'autres lois, et dans le cas général,
nous parlons alors de "variables
pivotales".
Voici quelques propriétés
mathématiques importantes de la variance:
P1. Multiplication par une
constante:
(7.125)
P2. Somme
de deux variables aléatoires (combinaison linéaire):
(7.126)
P3. Produit de deux variables aléatoires (en
utilisant la relation de Huyghens):
(7.127)
Et si les deux variables aléatoires sont indépendantes,
il vient:
(7.128)
Ce que l'on peut réécrire en utilisant
encore une fois la relation de Huyghens:
(7.129)
Évidemment, nous supposerons comme évident
que ces quatre propriétés s'étendent au cas
continu!
COVARIANCE DISCRèTE
Nous venons de voir dans la dernière relation le concept
de "covariance" dont
nous déterminerons une expression plus commode un peu plus bas
mais donc définie par:
(7.130)
Introduisons une forme plus générale et extrêmement
importante de la covariance dans de nombreux domaines:
(7.131)
Donc dans le cas général:
(7.132)
En utilisant la propriété de linéarité
de l'espérance et le fait que:
(7.133)
nous
avons pour la covariance:
(7.134)
et donc nous obtenons la relation très utilisée
en statistiques et finance dans la pratique appelée "formule
de la covariance"...:
(7.135)
qui est cependant plus connue sous la forme (nous voyons trivial
que l'ordre des données est important dans l'expression de la
covariance!):
(7.136)
Indiquons également que si ,
ce qui équivaut donc à une covariance univariée, nous retrouvons
la relation de Huyghens:
(7.137)
Remarque: Les statistiques peuvent être découpées
selon le nombre de variables aléatoires que nous étudions.
Ainsi, lorsqu'une seule variable aléatoire est étudiée,
nous parlons de "statistique univariée",
pour deux variables aléatoires de "statistique
bivariée" et en général,
de "statistique
multivariée".
Si et seulement si les variables sont équiprobables,
nous retrouvons la covariance dans la littérature sous
la forme suivante, appelée parfois "covariance
de Pearson", qui
découle
de calculs que nous avons déjà
fait antérieurement avec l'espérance:
(7.138)
La covariance est un indicateur
de la variation simultanée de X et Y. En effet,
si en général X et Y croissent simultanément,
les produits seront
positifs (corrélés positivement), tandis que
si Y décroît lorsque X croît,
ces même produits seront négatifs (corrélés
négativement).
Signalons que si nous distribuons les termes de la dernière
relation, nous avons:
(7.139)
et nous avons déjà démontré que
la somme des écarts à la moyenne est nulle. Dès lors nous
obtenons une autre forme courante de la covariance (très utile dans les tableurs!):
(7.140)
et par symétrie:
(7.141)
Donc au final, dans le cas équiprobable, nous avons finalement les
trois relations équivalentes importantes utilisées dans différents
chapitres du présent site:
(7.142)
Dans le chapitre de Méthodes Numériques pour notre étude
de la régression linéaire et de l'analyse factorielle nous aurons
besoin de l'expression explicite de la propriété de bilinéarité de
la variance. Pour voir en quoi cela consiste exactement, considérons
trois variables aléatoires X, Y et Z et a et b deux constantes. Alors
en utilisant la troisième relation donnée précédemment,
nous avons:
(7.143)
Cette dernière relation est elle aussi importante et sera utilisée
dans plusieurs chapitres du site (Économie, Méthodes Numériques).
Elle nous permet aussi d'obtenir directement des covariances entre des sommes
de variables aléatoires.
Exemple:
Si X, Y, Z, T sont quatre variables aléatoires définies sur
la même population, nous voulons calculer la covariance suivante:
(7.144)
Nous allons donc développer en deux fois (raison pour laquelle nous
appelons cela la "bilinéarité"). D'abord par rapport
au second argument (arbitrairement!):
(7.145)
et ensuite par rapport au premier:
(7.146)
Donc au final:
(7.147)
Maintenant, considérons un
vecteur de composantes et
un
autre vecteur de composantes ,
tous deux étant des variables aléatoires, le calcul
de la covariance des composantes deux à deux
donne ce que l'on appelle la "matrice
des covariances" ou plus exactement "matrice
des variances-covariances"
(outil très utilisé en finance, dans la gestion
en général et les méthodes numériques
statistiques!).
Effectivement, si nous écrivons:
(7.148)
Nous pouvons dès lors écrire une matrice symétrique
(normalement dans la pratique elle doit être carrée...)
sous la forme:
(7.149)
Par symétrie et étant donnée qu'elle est
carrée de dimension n par n seul le nombre
suivant de composantes nous est utile pour déterminer l'ensemble
de la matrice (information triviale mais importante pour lorsque
nous étudierons la modélisation par équations
structurelles dans le chapitre de Méthodes Numériques):
(7.150)
Cette matrice a comme propriété remarquable que
si nous prenons donc n vecteurs et que nous calculons
la matrice des covariances, alors la diagonale de cette dernière
donnera les variances des des vecteurs pris par pair (voir les
exemples dans
le chapitre
d'Économie ou de Méthodes Numériques)! Raison
pour laquelle cette matrice est souvent appelée "matrices
des variances-covariances" et se retrouve donc parfois
notée également sous la forme suivante:
(7.151)
ou plus simplement:
(7.152)
Cette matrice a pour avantage de montrer rapidement
quelles sont les couples de variables aléatoires qui ont une covariance
négative
et donc... dont la variance de la somme est plus petite que la
somme des variances.
Remarque: Cette matrice est
très
importante et nous la retrouverons fréquemment dans le
chapitre d'Économie
lors de notre étude de la théorie du portefeuille
et dans les techniques de fouille de données (data mining,
clustering) dans le chapitre de Méthodes numériques
(l'analyse en composantes principales par exemple mais pas uniquement!).
Rappelons maintenant que nous avions un axiome en probabilités
(cf. chapitre de Probabilités)
qui énonçait que deux événements A, B sont indépendants si:
(7.153)
De la même façon,
par extension, nous définissons l'indépendance des
variables aléatoires discrètes.
Définition: Soit X, Y deux variables
aléatoires
discrètes. Nous disons que X, Y sont indépendantes
si:
(7.154)
Plus généralement,
les variables discrètes
sont indépendantes (en bloc) si:
(7.155)
L'indépendance de
deux variables aléatoires implique que leur covariance est
nulle (la réciproque est fausse!). Prouvons ceci dans le
cas où les variables aléatoires ne prennent qu'un
nombre fini de valeurs
et
respectivement, avec I, J des ensembles finis:
(7.156)
et donc:
(7.157)
Remarque: Donc plus la covariance est faible, plus les
séries
sont indépendantes. A l'inverse, plus la covariance est élevée,
plus les séries sont liées.
Étant donné que:
(7.158)
si X, Y sont
indépendantes alors :
(7.159)
De manière plus générale si sont
indépendantes (en bloc) alors pour toute loi statistique
(!) nous avons:
(7.160)
ESPÉRANCE ET VARIANCE DE LA MOYENNE (ERREUR STANDARD)
Souvent en statistique, il est utile de déterminer l'écart-type
de la moyenne empirique. Voyons de quoi il s'agit!
Soit la moyenne d'une série
de termes déterminés chacun par la mesure de plusieurs valeurs
(il s'agit au fait de son estimateur dans un cas particulier comme
nous le verrons beaucoup plus loin):
(7.161)
alors en utilisant les propriétés de l'espérance:
(7.162)
et si toutes les variables aléatoires sont identiquement
distribuées et indépendantes nous avons alors:
(7.163)
Remarque: Nous démontrerons
bien plus loin que si toutes les variables aléatoires sont
identiquement
distribuées et indépendantes et de variance finie, alors l'espérance
suit asymptotiquement une loi Normale.
Pour la variance, le même raisonnement s'applique:
(7.164)
et si les variables aléatoires sont toutes identiquement
distribuées et indépendantes (nous étudierons plus loin
le cas très important et courant dans la pratique où cette dernière
condition n'est pas satisfaite):
(7.165)
d'où l'écart-type de la moyenne
appelé aussi "erreur-type", "erreur-standard" ou
encore "variation
non systématique":
(7.166)
et il s'agit rigoureusement de l'écart-type
de l'estimateur de la moyenne (c'est peut-être plus clair ainsi)!
Cette relation se trouve dans de nombreux logiciels
dont les graphiques Microsoft Excel (mais il n'y a pas de fonction
intégrée dans Excel), écrite
soit avec l'écart-type
(comme ci-dessus), soit avec la notation de la variance (suffit
de mettre au carré...).
Signalons que la dernière relation peut être
utilisée
même si la moyenne des n variables aléatoires
n'est pas identique! La condition principale étant juste
que les écarts-types
soient tous égaux et c'est le cas dans la pratique de l'industrie
(production).
Nous avons donc:
(7.167)
où désigne
la somme des n variables aléatoires et leur
moyenne estimée.
La variable centrée réduite que nous avions introduite plus haut:
(7.168)
peut
alors s'écrire de plusieurs manières très utiles:
(7.169)
Par ailleurs, en supposant que le lecteur sache
déjà ce
qu'est une loi Normale ,
nous démontrerons plus loin en détails car c'est
extrêmement
important (!) que la loi de
probabilité de
la variable aléatoire ,
moyenne de n variables aléatoires identiquement distribuées
et linéairement indépendantes, est alors la loi:
(7.170)
COEFFICIENT DE CORRÉLATION
Maintenant, considérons X et Y deux variables
aléatoires ayant pour covariance:
(7.171)
Alors nous avons:
(7.172)
Nous allons démontrer cette relation immédiatement
car l'utilisation de la covariance seule pour l'analyse des données
n'est pas géniale car elle n'est pas à proprement
parler bornée
et simple d'usage (au niveau de l'interprétation). Nous
allons donc construire un indicateur plus facile d'usage en entreprise.
Démonstration:
Choisissons une constante a quelconque et calculons la
variance de:
(7.173)
Nous
pouvons alors immédiatement écrire à l'aide
des propriétés
de la variance et de l'espérance:
(7.174)
La quantité de droite est positive ou nulle en tout a par
construction de la variance (de gauche). Donc le discriminant de
l'expression, vue comme un trinôme en a est du type:
(7.175)
Donc pour que P(a) soit positif pour tout a nous
avons comme seule possibilité que:
(7.176)
Soit après simplification:
(7.177)
C.Q.F.D.
Ce qui nous donne:
(7.178)
Finalement nous obtenons
une forme de l'inégalité statistique dite "inégalité
de Cauchy-Schwarz":
(7.179)
Si les variances de X et Y sont non nulles, la corrélation
entre X et Y est définie par le "coefficient
de corrélation linéaire" (il s'agit
donc de la covariance standardisée afin que son amplitude
ne soit pas dépendante de l'unité de mesure choisie)
et noté:
(7.180)
Ce qui peut aussi s'écrire sous forme développée
(en utilisant la relation de Huyghens):
(7.181)
ou encore plus condensée:
(7.182)
Signalons que normalement, la lettre R est
réservée pour dire qu'il s'agit d'un estimateur du
coefficient de corrélation
alors que la définition ci-dessus n'est pas un estimateur
et qu'en toute rigueur, nous devrions alors noter selon
les traditions d'usage.
Quels que soient l'unité et
les ordres de grandeur, le coefficient
de corrélation est donc un nombre sans unités
(donc sa valeur ne dépend pas de l'unité de mesure
choisie, ce qui n'est de loin pas le cas de tous les indicateurs
statistiques!), compris
entre -1 et 1. Il traduit la plus ou moins grande dépendance
linéaire
de X et Y et ou, géométriquement,
le plus ou moins grand aplatissement. Nous pouvons donc dire
qu'un coefficient de corrélation nul ou proche de 0 signifie
qu'il n'y a pas de relation linéaire entre les caractères.
Mais il n'entraîne
aucune notion d'indépendance
plus générale.
Quand le coefficient
de corrélation est proche de 1 ou -1, les caractères
sont dits fortement corrélés. Il faut prendre garde à la
confusion fréquente
entre corrélation et causalité.
Ainsi, que deux phénomènes soient corrélés
n'implique en aucune façon que l'un soit cause de l'autre.
Ainsi:
- Si nous
avons affaire à une corrélation négative
dite "corrélation
négative parfaite" (dans la cas d'une relation
linéaire tous les points de mesures sont situés
sur une droite de pente négative).
- Si nous
avons affaire à une corrélation négative
ou positive dite "corrélation
imparfaite" (dans la cas d'une relation
linéaire tous les points de mesures sont situés
sur une droite de pente négative ou respectivement positive).
- Si la
corrélation est nulle... (dans la cas d'une relation
linéaire tous les points de mesures sont situés
sur une droite de pente nulle).
- Si nous
avons affaire à une corrélation positive dite "corrélation
positive parfaite" (dans la cas d'une relation
linéaire tous les points de mesures sont situés
sur une droite de pente positive).
L'analyse du coefficient de corrélation poursuit donc l'objectif
de déterminer le degré d'association
entre les différentes variables: celui-ci est souvent exprimé par
le coefficient de détermination, qui est le carré du
coefficient de corrélation.
Le coefficient de détermination mesure donc la contribution
d'une des variables à l'explication de la seconde.
En utilisant les expressions
de la moyenne et de l'écart-type de variables équiprobables
telles que démontrées plus haut (donc cela restreint
l'application de ce coefficient à des variables aléatoires dont
la distribution jointe est Normale!!), nous
passons de:
(7.183)
à l'estimateur du coefficient de corrélation:
(7.184)
où nous voyons que la covariance devient alors la moyenne des
produits moins le produit des moyennes.
Soit après simplification:
(7.185)
Le coefficient de corrélation peut être
calculé dans version française de
Microsoft Excel 11.8346 avec entre autres la fonction intégrée
COEFFICIENT.CORRELATION( ).
À signaler que nous verrons dans le chapitre de Méthodes
Numériques l'expression générale du coefficient de corrélation.
Remarques:
R1. Dans la littérature le coefficient de
corrélation
est souvent appelé "coefficient
d'échantillonnage de Pearson" (dans le cas
équiprobable)
et lorsque nous le portons au carré,
nous parlons alors de "coefficient
de détermination".
R2. Souvent le carré de ce coefficient est un peu abusivement
interprété comme le % de variation expliqué de la variable étudiée Y par
la variable explicative X.
Enfin, à noter que nous avons donc la relation suivante
qui est énormément utilisée dans la pratique
(voir le chapitre d'Économie pour des exemples
fameux!):
(7.186)
ou sa version avec l'écart-type:
(7.187)
Il s'agit d'une relation que l'on retrouve souvent
en finance dans le cadre du calcul de la VaR selon la
méthodologie
RiskMetrics proposée par J.P. Morgan (cf.
chapitre d'Économie).
Exemple:
Une compagnie aérienne a à sa disposition
120 sièges qu'elle réserve pour des passagers en
correspondance venant de deux autres vols arrivés un peu
plus tôt dans la journée et en partance pour Francfort.
Le premier vol arrive de Manille et le nombre de passagers à son
bord suit une loi Normale de moyenne 50 et de variance 169. Le
second vol arrive de Taipei et le nombre de passagers à son
bord suit une loi Normale de moyenne 45 et de variance 196.
Le coefficient de corrélation linéaire
entre le nombre de passagers des deux vols est mesuré comme étant:
(7.188)
La loi que suit le nombre de passagers
pour Francfort si nous supposons que la loi du couple suit
elle aussi
une loi Normale (selon énoncé!) est:
(7.189)
avec:
(7.190)
et:
(7.191)
ce qui donne:
(7.192)
C'est donc mal parti au niveau satisfaction de la
clientèle au long terme...
VARIABLES CONTINUES
Définitions:
D1. Nous disons que X est une variable continue si sa "fonction
de répartition" est continue. La fonction
de répartition
de X étant définie par:
(7.193)
soit la probabilité cumulée que la variable aléatoire X soit
plus petite ou égale à la valeur x fixée.
Nous avons aussi bien évidemment:
(7.194)
D2. Nous appelons:
(7.195)
la "fonction de survie" ("survival
function" en anglais) ou "fonction
de queue"
("tail distribution function").
D3. Si de plus la fonction de répartition F de X est
continûment dérivable de dérivée appelée "fonction
de densité" ou "fonction
de masse" ou encore "fonction
de distribution" alors
nous disons que X est
absolument continue et dans ce cas nous avons:
(7.196)
avec la condition de normalisation:
(7.197)
Toute fonction de distribution
de probabilité doit satisfaire l'intégrale de normalisation dans
son domaine de définition!
Remarque: Il
est intéressant de remarquer que la définition amène à ce
que la probabilité
qu'une variable aléatoire totalement continue
prenne une valeur donnée est nulle! Donc ce n'est pas parce
qu'un événement a une probabilité nulle
qu'il ne peut arriver!!!
La moyenne ayant été définie
par la somme pondérée par les probabilités pour une variable discrète,
elle devient une intégrale
pour une variable continue:
(7.198)
et la variance s'écrit donc:
(7.199)
Nous avons alors aussi la médiane qui est logiquement redéfinie
dans le cas d'une variable aléatoire continue par:
(7.200)
et elle coïncide rarement avec la moyenne!
Souvent les statisticiens
utilisent les mêmes notations pour l'espérance
mathématique d'une variable continue:
(7.201)
et pour la variance:
(7.202)
que pour une variable discrète.
Par la suite, nous calculerons
ces différents indicateurs avec démonstrations détaillées
uniquement pour les cas les plus usités.
POSTULAT FONDAMENTAL DE LA STATISTIQUE
Un des buts ultime de la statistique est de remonter de l'échantillon à la
fonction de répartition analytique qui lui aurait donné naissance.
Ce but sera présenté dans le cadre de ce site internet
comme un postulat (bien que cela postulat soit très difficile à appliquer
dans la pratique).
Postulat: À toute fonction de répartition empirique
nous
pouvons associer une fonction de répartition théorique
F(x) vers laquelle elle converge quand la taille
de l'échantillon
est suffisamment grande.
Si:
(7.203)
est la variable aléatoire définie comme
la plus grande différence (en valeur absolue) entre et F(x)
(observée
pour toutes les valeurs de x pour un échantillon
donné),
alors Xn converge vers 0 presque sûrement.
Remarque: Les mathématiciens
de la statistique démontrent ce postulat de manière rigoureuse
sous la forme d'un théorème
appelé le "théorème
fondamental de la statistique" ou "théorème
de Glivenko-Cantelli" en ce qui concerne les fonctions
continues. Personnellement, quitte à choquer les connaisseurs,
je considère
que cette démonstration n'en est pas une car elle est très éloignée
ce que montre l'expérience (oui c'est mon côté physicien
qui ressort...) et ce résultat théorique amène
un grand nombre de praticiens à faire souvent tout leur
possible (exclusion de données, transformations et autres
abominations) pour trouver une loi connue à laquelle ils
peuvent ajuster leurs données mesurées.
INDICE DE DIVERSITÉ
Il arrive dans le domaine de la biologie ou de l'entreprise que
l'on demande à un statisticien ou analyste de mesurer la diversité d'un
certain nombre d'éléments prédéfinis. Par exemple, imaginons une
multinationale ayant une gamme de produits bien définie et dont
certains magasins (clients) dans le monde peuvent choisir un sous-ensemble
de cette gamme pour leur commerce. La question étant alors de faire
un ranking des magasins qui vendent la plus grande diversité de
produits de la marque et ce en prenant en compte aussi les quantités.
Par exemple, nous avons une liste de 4 produits au total dans
notre catalogue. Le hasard faisant, trois de nos clients vendent
nos 4 produits mais nous souhaiterions savoir lequel en vend la
plus grande diversité et ce en prenant en compte les quantités.
Nous avons les données de ventes par produit suivantes pour le
client 1:
Client 1 |
Produit 1 |
5 |
Produit 2 |
5 |
Produit 3 |
5 |
Produit 4 |
5 |
pour le client 2:
Client 2 |
Produit 1 |
1 |
Produit 2 |
1 |
Produit 3 |
1 |
Produit 4 |
17 |
et pour le client 3:
Client 3 |
Produit 1 |
2 |
Produit 2 |
2 |
Produit 3 |
2 |
Produit 4 |
34 |
Une mesure de l'information (diversité des états)
qui peut être
bien adaptée à cet objectif est la formule de Shannon
introduite dans le chapitre de Mécanique Statistique dont
l'espérance est:
(7.204)
Arbitrairement, nous prendrons et
la base 10 pour le logarithme (ainsi, si nous avons 10 variables équiprobables,
l'entropie sera unitaire par exemple...).
Dès lors il vient:
(7.205)
Nous allons récrire cela de manière plus adéquate
pour l'application en entreprise. Ainsi, si n est le nombre
de produits et est
la proportion (ou "fréquence relative") de ventes du produit i parmi
la totalité des
ventes N nous avons alors:
(7.206)
Il vient alors:
(7.207)
Nous avons alors pour le client 1:
(7.208)
qui est la valeur maximale possible (chaque état est équiprobable).
Et pour le client 2 nous avons:
(7.209)
et pour le client 3:
(7.210)
Ainsi, le client ayant la plus grande diversité est le premier.
Nous voyons aussi une propriété intéressante de la formule de Shannon à l'aide
des clients 2 et 3 c'est que la quantité n'influe pas sur la diversité (puisque
la seule différence entre les deux clients est la quantité qui
est multipliée d'un facteur 2 et non la diversité)!
FONCTIONS
DE DISTRIBUTIONS
Lorsque nous observons des
phénomènes probabilistes, et que nous prenons
note des valeurs prises par ces derniers et que nous les reportons
graphiquement,
nous observons
toujours que les différentes mesures obtenues suivent une
caractéristique
courbe typique qui est parfois ajustable théoriquement
avec un bon niveau de qualité.
Dans le domaine
des probabilités et statistiques, nous appelons ces caractéristiques
des "fonctions de distribution" car
elles indiquent la fréquence avec laquelle la variable
aléatoire
apparaît avec certaines valeurs.
Remarque: Nous utilisons aussi simplement le terme "fonction"
ou encore "loi" pour désigner ces caractéristiques.
Ces fonctions sont en pratique bornées par ce que nous
appelons
"l'étendue de la distribution",
ou "dispersion de la distribution",
qui correspond à la
différence
entre la donnée
maximale (à
droite) et la donnée minimale (à gauche) des valeurs
observées:
(7.211)
notée souvent aussi R (pour "range" en
anglais) dans l'ingénierie
de la qualité (cf. chapitre de Génie
Industriel). Dans la théorie elles sont non
nécessairement
bornées et nous parlons alors (cf.
chapitre d'Analyse Fonctionnelle)
de "domaine de définition" ou
plus simplement du "support" de
la fonction.
Si les valeurs observées
se distribuent d'une certaine manière c'est qu'elles ont
alors une probabilité (ou probabilité cumulée dans le
cadres des fonctions continues) d'avoir une certaine valeur de
la fonction de distribution.
Dans la pratique industrielle (cf. chapitre
de Génie Industriel),
l'étendue des valeurs statistiques est importante (de même
que l'écart-type) parce qu'elle donne une indication sur la variation
d'un processus (variabilité).
Définitions:
D1. La relation mathématique
qui donne la probabilité qu'a une variable aléatoire
d'avoir une valeur précise de la fonction de distribution
est appelée
"fonction de densité" (ou
"fonction de densité de probabilité"),
"fonction de masse" ou
encore
"fonction marginale".
D2. La relation mathématique
qui donne la probabilité cumulée qu'a une
variable aléatoire
d'être inférieure ou égale à une
certaine valeur est nommée la "fonction
de répartition" ou "fonction
cumulée".
D3. Des variables aléatoires
sont dites "indépendantes et identiquement
distribuées" (i.i.d.) si
elles suivent toutes la même fonction de distribution et
qu'elles sont indépendantes.
Remarque: Le lecteur pourra trouver les développements
mathématiques la fonction de distribution de Weibull (ou "loi
de Weibull")
dans le chapitre traitant du Génie Industriel (section sur
l'Ingénierie),
et la fonction de distribution logistique dans le chapitre de
Méthodes
Numériques.
De telles fonctions étant
très nombreuses dans la nature, nous proposons au lecteur
ci-après une
étude détaillée des plus connues seulement.
Indiquons avant d'aller plus loin que si nous notons X une
variable aléatoire continue ou discrète, il y a plusieurs
usages de notation dans la littérature scientifique pour
indiquer qu'elle suit une loi de probabilité donnée L.
Voici les plus courantes:
(7.212)
Dans le présent chapitre et tout le site Internet
en général, nous utiliserons la dernière notation.
Voici la liste des fonctions de distribution que
nous allons voir ici ainsi que les fonctions de distributions utilisées
couramment dans l'industrie et se trouvant dans d'autres chapitres
et celles qui dont la démonstration doit
encore être rédigé:
- Distribution Discrète Uniforme (voir plus
bas)
- Distribution de Bernoulli (voir plus bas)
- Distribution Géométrique (voir plus bas)
- Distribution Binomiale (voir plus bas)
- Distribution Binomiale Négative (voir plus bas)
- Distribution Hypergéométrique (voir plus bas)
- Distribution Multinomiale (voir plus bas)
- Distribution de Poisson (voir plus bas)
- Distribution de Gauss-Laplace/Loi Normale (voir plus bas)
- Distribution Log-Normale (voir plus bas)
- Distribution Uniforme continue (voir plus bas)
- Distribution Triangulaire (voir plus bas)
- Distribution de Pareto (voir plus bas)
- Distribution Exponentielle (voir plus bas)
- Distribution de Weibull (cf. chapitre de Génie Industriel)
- Distribution Exponentielle Généralisée (cf.
chapitre
de Méthodes Numériques)
- Distribution d'Erlang/Erlang-B/Erlang-C (cf.
chapitre
Techniques De Gestion)
- Distribution de Cauchy (voir plus bas)
- Distribution Bêta (voir plus bas)
- Distribution Gamma (voir plus bas)
- Distribution du Khi-deux (voir plus bas)
- Distribution de Student (voir plus bas)
- Distribution de Fisher-Snedecor (voir plus bas)
- Distribution de Benford (voir plus bas)
- Distribution Logistique (cf.
chapitre
de Méthodes Numériques)
DISTRIBUTION DISCRÈTE UNIFORME
Si nous admettons qu'il
est possible d'associer une probabilité à un événement,
nous pouvons concevoir des situations où nous pouvons supposer
a priori que tous les événements élémentaires
sont équiprobables
(c'est-à-dire qu'ils
ont même probabilité). Nous utilisons alors le rapport entre
le nombre de cas favorables et le nombre de cas possibles pour
calculer
la probabilité de tous les événements de l'Univers
des événements
U.
Plus généralement si U
est un ensemble fini d'événements équiprobables
et A une
partie de U
nous avons sous forme ensembliste (cf. chapitre
Théorie Des Ensembles):
(7.213)
Plus communément, soit e un événement
pouvant avoir N issues équiprobables possibles. Alors
la probabilité d'observer
l'issue
donnée de l'événement suit une "distribution
discrète
uniforme" (ou "loi
discrète uniforme") donnée
par la relation:
(7.214)
Ayant pour espérance (ou
moyenne):
(7.215)
Si nous nous mettons dans le cas particulier où avec .
Nous avons alors (cf. chapitre de Suites et
Séries):
(7.216)
Et pour variance:
(7.217)
Voici un exemple de tracé de la fonction de
distribution et respectivement de répartition
pour la loi discrète uniforme de paramètres {1,5,8,11,12}
(nous voyons que chaque valeur est bien équiprobable):
 
Figure: 7.8 - Loi discrète uniforme (fonction de distribution et de répartition)
DISTRIBUTION DE BERNOULLI
Si nous avons affaire à une
observation binaire alors la probabilité d'un événement
reste constante d'une observation à l'autre s'il n'y a pas d'effet
mémoire
(autrement dit: une somme de variables de Bernoulli, deux à deux
indépendantes).
Nous appelons ce genre d'observations où la variable aléatoire
a valeurs 0 (faux) ou 1 (vrai), avec probabilité respectivement p,
des "essais de Bernoulli" avec
"événements contraires à probabilités
contraires".
Ainsi, une variable aléatoire
X
suit une "distribution de Bernoulli" (ou "loi
de Bernoulli") si elle
ne peut prendre que les valeurs 0 ou 1, associées aux probabilités q et p
de sorte que et:
(7.218)
L'exemple classique d'un tel processus est
le jeu de pile de face ou de tirage avec remise ou pouvant être
considéré tel quel (ce dernier cas étant très important dans
la pratique industrielle). Il est certainement inutile pour le
lecteur de vérifier
formellement que la probabilité cumulée est unitaire...
Remarquons que par extension, si nous considérons N événements
où nous
obtenons dans un ordre particulier k fois
une des issues possible (réussite) et N-k l'autre
(échec), alors la probabilité
d'obtenir une telle série (de k réussites
et N-k échecs ordonnés dans un
ordre particulier) sera donnée par:
(7.219)
conformément à ce que nous avions obtenu en combinatoire
dans le chapitre de Probabilités!
Voici un exemple de tracé de
la fonction de répartition pour :

Figure: 7.9 - Loi de Bernoulli (fonction de distribution et de répartition)
La distribution de Bernoulli
a donc pour espérance (moyenne):
(7.220)
et pour variance (nous utilisons la relation de Huyghens démontrée
plus haut):
(7.221)
Remarque: L'exemple ci-dessus n'est certes par pertinent
mais nous verrons dans le chapitre de Techniques De Gestion que
la distribution
de Bernoulli apparaît naturellement au début de notre
étude de la théorie des files d'attentes.
DISTRIBUTION GÉOMÉTRIQUE
La loi géométrique ou "loi
de Pascal" consiste
dans une épreuve de type Bernoulli, dont la probabilité de
succès
est p et
celle d'échec sont
constantes, que nous renouvelons de manière indépendante
jusqu'au premier succès.
Si nous appelons X la variable aléatoire donnant
le rang du premier succès, la probabilité que est
alors (cas particulier de la distribution de Bernoulli):
(7.222)
avec .
Cette loi a pour espérance:
(7.223)
Or, cette dernière relation s'écrit aussi (car c'est une simple
série géométrique):
(7.224)
Effectivement, nous avons démontré dans le chapitre sur les Suites
et Séries que:
(7.225)
En prenant la limite lorsque nous
obtenons:
(7.226)
car .
Ensuite, il suffit de dériver les deux membres de l'égalité par
rapport à q et
nous obtenons:
(7.227)
Nous avons donc le nombre moyen d'essais X qu'il faut
faire pour arriver au premier succès (ou autrement dit:
le rang espéré (nombre d'essais espéré)
pour voir le premier succès):
(7.228)
Calculons maintenant la variance en rappelant comme à chaque
fois que (relation de Huyghens):
(7.229)
Commençons donc par calculer :

(7.230)
Le dernier terme de cette expression est l'équivalent de l'espérance
calculée précédemment. Soit:
(7.231)
Il reste à calculer:
(7.232)
Nous avons:
(7.233)
Or en dérivant l'égalité:
(7.234)
Nous obtenons:
(7.235)
Par conséquent:
(7.236)
Donc:
(7.237)
Pour finir il vient alors la variance du rang espéré du
1er succès
(autrement dit: la variance du nombre d'essais espéré avant
le 1er succès):
(7.238)
Exemple:
E1. Vous essayez, tard dans la nuit et dans l'obscurité,
d'ouvrir une serrure au moyen d'un trousseau de 5 clés, sans porter
attention, car vous êtes un peu fatigué (ou un peu éméché...) vous
essayez chaque clé. Sachant qu'une seule convient, quelle
est la probabilité d'utiliser
la bonne clé au k-ème essai?
(7.239)
E2. Tracé de la fonction de distribution et répartition pour
la fonction Géométrique de paramètre :

Figure: 7.10 - Loi géométrique (fonction de distribution et de répartition)
Déterminons maintenant la fonction de répartition
de la loi Géométrique. Nous partons
donc de:
(7.240)
Nous avons alors par définition la probabilité cumulée
que l'expérience réussisse dans les n premiers
essais:
(7.241)
avec n entier valant 0...1...2, etc.
Posons:
(7.242)
Nous
avons alors:
(7.243)
DISTRIBUTION BINOMIALE
Revenons maintenant
à notre épreuve de Bernoulli. Plus généralement,
tout N-uplet particulier formé de k succès
et de N-k échecs aura pour probabilité (dans
le cadre d'un tirage avec remise ou sans remise si la population
est grande en première approximation...):
(7.244)
d'être tiré (ou d'apparaître) quel que soit
l'ordre d'apparition des échecs
et réussites (le lecteur aura peut-être remarqué qu'il s'agit
d'une généralisation de la loi géométrique, il suffit de poser
k = 1 pour retrouver la loi géométrique).
Mais, nous savons que la combinatoire permet de déterminer
le nombre de N-uplets
de ce type (le nombre de manières d'ordonner les apparitions
d'échecs
et de réussites). Le nombre d'arrangements
possibles étant, nous l'avons démontré (cf.
chapitre Probabilités),
donné par le coefficient binomial (notation - pour rappel
- non conforme sur ce site Internet à la norme ISO 31-11):
(7.245)
Donc comme la probabilité d'obtenir une série de k succès
et N-k échecs particuliers est toujours
identique (quel que soit l'ordre) alors il suffit de multiplier
la probabilité d'une
série particulière
par la combinatoire (ceci étant équivalent à faire
une somme):
(7.246)
pour avoir la probabilité totale d'obtenir une quelconque de ces
séries possibles (puisque chacune est possible).
Remarque: Cela équivaut à l'étude
d'un tirage avec remise (cf. chapitre de
Probabilités)
simple avec contrainte sur l'ordre ou à l'étude d'une
série de
succès ou d'échecs. Nous utiliserons cette relation
dans le cadre de la théorie
des files d'attentes ou en fiabilité. Il faut noter que dans
le cas de grandes populations, même si le tirage n'est pas
avec remise il peut être considéré comme tel...
Écrite autrement ceci donne
la "distribution Binomiale" (ou "loi
Binomiale") connue aussi sous la
forme de la fonction de distribution suivante:
(7.247)
et
parfois notée:
(7.248)
avec un petit n ou grand N (cela importe peu...)
et peut être
calculée
dans la version française de Microsoft Excel 11.8346 à l'aide
de la fonction LOI.BINOMIALE( ).
Nous disons parfois que la loi Binomiale est non
exhaustive car la taille de la population initiale n'est pas apparente
dans l'expression de la loi.
Exemple:
Nous souhaitons tester l'alternateur d'un groupe électrogène.
La probabilité de défaillance à la sollicitation
de ce matériel est estimée à 1 défaillance
pour 1'000 démarrages.
Nous décidons d'effectuer un
test de 100 démarrages.
La probabilité d'observer 1 panne au cours de
ce test est de:
(7.249)
Nous avons bien évidemment pour la fonction de répartition
(très utile dans la pratique comme le contrôle de
lots de fournisseurs ou la fiabilité!):
(7.250)
Effectivement, nous avons démontré dans le chapitre
de Calcul Algébrique le "théorème
binomial":
(7.251)
Donc:
(7.252)
Il vaut mieux utiliser Microsoft Excel 11.8346 (ou tout autre
logiciel largement répandu) pour ne pas s'embêter
à calculer ce genre de relations en utilisant la fonction
CRITERE.LOI.BINOMIALE( ) dans la version française.
L'espérance mathématique
(moyenne) de P(N,k) est:
(7.253)
Or:
(7.254)
d'où:
(7.255)
donne le nombre moyen de fois que l'on obtiendra l'issue souhaitée
de probabilité p après N essais.
L'espérance de la loi binomiale est aussi parfois notée
dans la littérature spécialisée sous la forme suivante
si r est
le nombre potentiel d'issues attendues possibles dans
une population de taille n:
(7.256)
Avant de calculer la variance, introduisons la relation
suivante:
(7.257)
En effet, en utilisant les développements précédents:
(7.258)
Commençons maintenant le (long) calcul de la variance de
la loi binomiale dans lequel nous allons utiliser les résultats
précédents:
(7.259)
L'écart-type étant ,
nous avons:
(7.260)
Dans la littérature spécialisée, nous retrouvons
souvent la variance écrite sous la forme suivante en notant
l'événement attendu r et l'événement
non-attendu s:
(7.261)
Voici un exemple de tracé de la fonction de distribution
et respectivement de répartition
de la loi binomiale :
 
Figure: 7.11 - Loi binomiale (fonction de distribution et de répartition)
Indiquons que certaines personnes
dans les entreprises ramènent le calcul de l'espérance
et de l'écart-type
à l'unité de N. Nous avons alors:
(7.262)
Exemple:
Sur un échantillon de 100 travailleurs, 25%
sont en retard au moins une fois par semaine. L'espérance
du nombre de retard est alors:
(7.263)
Rapporté à l'unité, cela nous donne:
(7.264)
Pour clore concernant avec la loi binomiale, nous
allons développer un résultat qui nous sera indispensable pour
construire le test de
données appariées de McNemar d'un tableau (carré) de contingence (et comme il
est carré il est in extenso dichotomique) que nous étudierons dans
le chapitre de Méthodes Numériques.
Nous avons besoin pour ce test de calculer la covariance de deux
variables aléatoires binomiales appariées (raison pour laquelle
la covariance est non nulle):
(7.265)
Comme elles sont appariées, cela signifie que:
(7.266)
et donc:
(7.267)
Maintenant, vient la difficulté qui est de calculer .
Pour calculer ce terme il n'existe pas à notre connaissance d'autres
méthodes que de chercher la loi du couple (parfois on peut contourner
cela). Dans le cas présent il s'agit d'une loi multinomiale (plus
précisément: trinomiale) qu'il est d'usage d'écrire sous la forme:
(7.268)
que nous noterons temporairement pour
la suite sous la forme suivante afin de condenser l'écriture:
(7.269)
Nous avons donc une loi trinomiale car nous cherchons
le nombre de fois d'avoir l'événement k, l'événement l et
ni l'un ni l'autre (donc le reste du temps).
Nous avons alors:
(7.270)
Si et ,
nous avons:
(7.271)
Maintenant utilisons cette relation dans l'espérance conjointe:
(7.272)
Considérons le cas où n vaut 2. Nous avons:
(7.273)
et pour n valant 3, le résultat sera aussi 1, et ainsi
de suite (nous supposerons afin de simplifier... que quelques exemples
numériques suffiront au lecteur pour le convaincre de la généralité de
cette propriété). Nous avons alors:
(7.274)
Donc au final:
(7.275)
Le signe négatif s'expliquant par le fait que si
ajoute un individu dans groupe, nous le retirons forcément de
l'autre.
DISTRIBUTION BINOMIALE NÉGATIVE
La loi binomiale négative s'applique dans la même situation
que la loi binomiale mais elle donne
la probabilité d'avoir E échecs
avant la R-ème réussite quand la probabilité de
succès est p (ou
inversement la probabilité d'avoir R réussites
avant le E-ème échec quand la probabilité d'échec
est p).
Introduisons cette distribution par l'exemple. Considérons pour cela
les probabilités suivantes:
(7.276)
Imaginons que nous ayons fait 10 essais et que nous voulions
nous arrêter à la troisième réussite et que le 10-ème essai est
la troisième
réussite! Nous allons noter cela:
(7.277)
Mettons en évidence les réussites (R) et échecs (E):
(7.278)
Nous avons donc 7 échecs et 3 réussites. Dans le
cadre d'une expérience où les tirages sont indépendants
(ou pouvant être considérés comme tel...), la probabilité que
nous avions d'obtenir ce résultat particulier est alors:
(7.279)
Mais l'ordre des succès et échecs dans la partie
entre crochets n'a aucune importance. Donc comme nous avons 2 succès
parmi 9 dans les crochets il vient que la probabilité d'obtenir
le même résultat indépendamment de l'ordre est alors
en utilisant la combinatoire:
(7.280)
ce qui correspond donc à la probabilité d'avoir
7 échecs avant
la 3ème réussite (ou autrement vu: 3 réussites
après
10 essais). Ce qui s'écrit
avec Microsoft Excel
14.0.6123 ou ultérieur
en français (7+3=10 essais, 7 échecs dont 3 réussites):
=LOI.BINOMIALE.NEG.N(7;3;0.2;0)=0.0604
Généralisons l'écriture antéprécédente notant k le nombre
d'échecs, N le nombre total d'essais et p la probabilité d'une
réussite:
(7.281)
Il y a cependant plusieurs écritures possibles
car la relation précédente n'est pas très
intuitive à mettre
en pratique comme l'aura peut-être remarqué le lecteur.
Ainsi, si nous notons k comme étant
le nombre de succès et non le nombre d'échecs, nous
avons alors (écriture la plus courante selon moi parmi d'autres équivalentes)
la probabilité suivante d'avoir un N-k
réussites
avant d'avoir un nombre k d'échecs avec un
probabilité
d'échec p (ou d'échecs
avant d'avoir k réussites... c'est symétrique!):
(7.282)
donc la comparaison avec la formulation de la loi binomiale démontrée
plus haut est alors peut-être plus évidente!
Il est cependant plus courant de noter la relation précédente
en faisant disparaître N car pour l'instant l'écriture
n'est toujours pas très claire. Pour cela, nous notons R le
nombre de réussites, E le nombre d'échecs, p la
probabilité d'une réussite et il vient alors la probabilité d'avoir R réussites
après E échecs (c'est beaucoup plus clair...):
(7.283)
Nous trouvons aussi parfois cette dernière relations sous
la forme suivante en utilisant explicitement le coefficient binomial:
(7.284)
La probabilité cumulée que nous ayons au moins R réussites
avant le E-ème échec vient immédiatement:
(7.285)
Remarque: Le nom de cette loi provient du fait que certains
statisticiens utilisent une définition d'un coefficient
combinatoire avec valeur négative pour l'expression de la
fonction. Comme c'est une forme plutôt rare, nous ne souhaitons
pas la démontrer. Il
faut savoir aussi que cette loi est aussi connue sous le nom de "loi
de Pascal" (au même titre que la loi géométrique...)
en l'honneur de Blaise Pascal et de "loi
de Pólya", en l'honneur de George Pólya.
Exemple:
E1. Un contrôle de qualité long terme nous a permis
de calculer l'estimateur de proportion p des pièces
non-conformes comme valant 2% à la
sortie d'une ligne de production. Nous souhaiterions savoir la
probabilité cumulée d'avoir 200 pièces bonnes
avant que la 3ème
pièce défectueuse apparaisse. Avec Microsoft Excel 14.0.6123
ou ultérieur en
français il vient en utilisant la loi binomiale négative:
=LOI.BINOMIALE.NEG.N(200;3;0.02;1)=77.35%
E2. Pour comparer avec la loi binomiale, demandons-nous quelle
est la probabilité cumulée de tirer 198 pièces
non-défectueuses
parmi 201 avec Microsoft Excel 14.0.6123 ou ultérieur en français:
=LOI.BINOMIALE.N(198;201;0.98;1)=76.77%
nous voyons donc que la différence est faible. Au fait la différence
entre les deux lois est dans la pratique quasiment toujours tellement
faible que nous n'utilisons alors que la loi binomiale (mais il
faut quand même être prudent!).
Comme à l'habitude, déterminons maintenant la variance
et l'espérance
de cette loi. Commençons par l'espérance d'avoir R réussites
lors de l'apparition de E-ème échec sachant
que la probabilité d'avoir
un échec est p. Pour cela nous allons utiliser une
astuce très simple et géniale (tout l'art était
d'y penser...). Si nous reprenons notre exemple de départ:
(7.286)
et que nous le réécrivons sous la forme suivante:
(7.287)
Nous remarquons alors que la troisième réussite R de la
première écriture peut être décomposée en la somme de trois variables
aléatoires géométriques telle que:
(7.288)
Avec dans le cas du présent exemple particulier correspondant
au fait à .
Donc en toute généralité la somme de n variables
aléatoires
géométriques donne toujours une loi binomiale négative
si la probabilité p est égale pour chaque
variable géométrique!
Bref... comme nous avons démontré l'expression de
l'espérance et
la variance de la loi Géométrique comme étant
(donnant donc l'espérance du rang du premier
échec):
(7.289)
puisque les variables aléatoires sont de même paramètres
et indépendantes
il vient alors pour la loi binomiale négative
l'esprance du rang d'avoir le E-ième échec:
(7.290)
Et alors pour la variance de la loi binomiale négative:
(7.291)
Donc l'espérance et la variance du rang
(correspondant donc bien évidemment au nombre d'essais N
ou autrement vu: à l'espérance du nombre de
réussites en faisant
la simple soustraction X - E) d'avoir
le E-ième échec
est donc pour résumer:
(7.292)
Ainsi, en posant E = 1, nous retombons sur
l'espérance et la variance de la loi géométrique.
Maintenant,
notons Y la variable aléatoire
représentant le nombre d'essais avant d'avoir la R-ième
réussite. Nous avons alors les expressions suivantes de
la variance et de l'espérance qui sont très courantes
dans la littérature (il s'agit des expressions de l'espérance
et de la variance telles que nous pouvons les trouver pour la loi
binomiale négative sur Wikipédia par exemple):
(7.293)
Exemple:
Quel est le nombre de tirages espérés auquel nous
pouvons nous attendre lorsque nous tomberons sur la troisième
pièce
non-conforme, sachant que la probabilité d'une
pièce non-conforme est de 2%?
(7.294)
et pour la variance:
(7.295)
Ci-dessous le lecteur trouver comme à l'habitude un exemple
de tracé de
la fonction de distribution et répartition pour la fonction
binomiale négative de paramètres basé sur
l'exemple du début mais avec comme seule différence
d'avoir pris comme probabilité de réussite de 60%
au lieu de 20%.
Ainsi, il y a 21.6% de probabilité d'avoir
la 3ème réussite
au 3ème essai successif (donc 0 essai de plus que le nombre
de réussites),
25.92% de probabilité d'avoir la 3ème réussite
au
4ème essai successif (donc 1 essai de plus que le nombre
de réussites),
20.7% de probabilité d'avoir la 3ème réussite
au 5ème essai successif (donc 2 essais de plus que le nombre
de réussites) et ainsi de suite...:
 
Figure: 7.12 - Loi binomiale négative (fonction de distribution et de répartition)
Les distributions ci-dessus sont tronquées à 9 (correspondant
donc à 12 essais) mais
continue théoriquement à l'infini.
Ce qui différencie particulièrement les lois binomiale
et géométrique
de la loi binomiale négative sont les queues de la distribution.
DISTRIBUTION HYPERGÉOMÉTRIQUE
Nous considérons pour approcher
cette fonction un exemple simple (mais guère intéressant
dans la pratique) qui est celui d'une urne contenant n
boules dont m
sont noires et les autres m' blanches (pour plusieurs
exemples concrets utilisés
dans l'industrie se reporter au chapitre de Génie Industriel
ou de Méthodes Numériques). Nous tirons successivement,
et sans les remettre dans l'urne, p
boules. La question est de trouver la probabilité que parmi
ces p
boules, il y en ait k
qui soient noires (dans cet énoncé l'ordre du tirage
ne nous intéresse
donc pas!).
Nous parlons souvent de "tirage exhaustif" avec la loi
hypergéométrique car contrairement à la loi
binomiale, la taille du lot qui sert de base au tirage va
apparaître dans la loi.
Remarque: Cela équivaut donc à l'étude
non ordonnée d'un tirage sans remise (cf.
chapitre de Probabilités) avec contrainte sur les
occurrences appelé parfois "tirage simultané".
Nous utiliserons souvent la distribution hypergéométrique dans le domaine
de la qualité ou de la fiabilité où les boules
noires sont associées à des éléments
avec défauts et les blanches à des éléments
sans défauts.
Les p
boules peuvent être choisies parmi les n
boules de façons
(représentant donc le nombre de tirages différents possibles)
avec pour rappel (cf. chapitre de Probabilités):
(7.296)
Les k boules noires peuvent être choisies parmi les m noires
de façons.
Les p-k boules
blanches peuvent être elles choisies de façons.
Il y a donc tirages
qui donnent k boules noires et p-k boules
blanches.
La probabilité recherchée
vaut donc (nous en verrons une autre formulation possible dans
le chapitre de Génie Industriel):
(7.297)
et est dite suivre une "distribution Hypergéométrique" (ou "loi
Hypergéométrique") et peut être obtenue
heureusement de manière directe dans Microsoft Excel 11.8346 avec
la fonction LOI.HYPERGEOMETRIQUE( ).
Exemples:
E1. Nous souhaitons mettre en production un petit développement
informatique de 10'000 lignes de code (n). Le retour d'expérience
montre que la probabilité de défaillance est de 1
bug pour 1'000 lignes de code (soit 0.1% de 10'000 lignes) ce qui
correspond à valeur de m.
Nous testons environ 50% des fonctionnalités
du logiciel au hasard avant l'envoi au client (soit l'équivalent
de 5'000 lignes de code correspondant à p). La
probabilité d'observer
5 bugs (k) est avec Microsoft Excel 11.8346:
=
LOI.HYPERGEOMETRIQUE(k;p;m;n)
=
LOI.HYPERGEOMETRIQUE(5;5000;0.1%*10000;10000)=24.62%
E2. Dans une petite
production unique d'un lot de 1'000 pièces nous savons
que 30% en moyenne sont mauvaises à cause de la complexité des
pièces par retour d'expérience d'une fabrication
précédente similaire. Nous savons qu'un client
va tirer 20 pièces au hasard pour décider d'accepter ou
de rejeter le lot. Il ne rejettera pas le lot s'il trouve zéro
pièce défectueuse parmi ces 20. Quelle est la probabilité d'en
avoir exactement 0 de défectueuse?
=LOI.HYPERGEOMETRIQUE(0;20;300;1000)=0.073%
et comme on exige un tirage nul, le
calcul de la loi hypergéométrique se simplifie en:
(7.298)
Il n'est pas interdit de faire le calcul direct de
l'espérance
et de la variance de la distribution hypergéométrique
mais le lecteur pourra sans trop de peine imaginer que ce calcul
va être...
relativement indigeste. Alors nous pouvons utiliser une méthode
indirecte qui de plus est intéressante!
D'abord le lecteur aura peut-être, même certainement, remarqué qu'au
fait l'expérience de la loi hypergéométrique est une série d'essais
de Bernoulli (sans remise bien entendu!).
Alors, nous allons tricher en utilisant dans un premier temps
la propriété de linéarité de l'espérance.
Définissons pour cela
une nouvelle variable correspondant implicitement au fait à l'expérience
de la distribution hypergéométrique (k essais
de Bernoulli à la suite!):
(7.299)
où représente
la réussite d'obtenir au i-ème tirage une
boule noire (soit 0 ou 1). Or, nous savons que pour tout i la
variable aléatoire suit
une distribution de Bernoulli pour laquelle nous avons démontré lors
de notre étude de la loi de Bernoulli que .
Dès lors, de par la propriété de linéarité de
l'espérance nous
avons (attention ici p n'est plus le nombre de boules
mais la probabilité associée à une issue attendue!):
(7.300)
Dans l'essai de Bernoulli, p est donc la probabilité d'obtenir
l'élément recherché (pour rappel...). Dans
la loi hypergéométrique
ce qui nous intéresse est la probabilité d'avoir
une boule noire (qui sont en quantité m, avec donc m'
boules blanches) par rapport à la quantité totale
de boules n.
Et le rapport nous donne évidemment cette probabilité.
Ainsi, nous avons:
(7.301)
où k est le nombre de tirages (attention à ne
pas confondre avec la notation de l'énoncé initial
où il était noté par la variable p!!!).
Cette espérance donne donc le nombre moyen de boules noires lors
d'un tirage
de k boules
parmi n, dont m sont connues comme étant
noires. Le lecteur aura remarqué que l'espérance
de la loi hypergéométrique
est donc la même que la loi binomiale!
Pour déterminer la variance, nous allons utiliser la variance
de la loi de Bernoulli et la relation suivante démontrée
lors de l'introduction de l'espérance et de la covariance
au début de
ce chapitre:
(7.302)
Dons en rappelant que nous avons , il
vient:
(7.303)
Or, pour la loi de Bernoulli, nous avons:
(7.304)
Alors nous avons déjà:
(7.305)
Ensuite, nous avons facilement:
(7.306)
Le calcul de nécessite
lui une bonne compréhension des probabilités (ce
sera un bon rappel!).
L'espérance est
donnée (implicitement) par la somme pondérée
des probabilités que
deux événements aient lieu en même temps comme nous
le savons. Or, nos événements sont binaires: soit
c'est une boule noire (1) soit c'est une boule blanche (0). Donc
tous les termes de la somme
n'ayant pas deux boules noires consécutivement seront nuls!
Le problème est alors de calculer la probabilité d'avoir deux
boules noires consécutives et celle-ci s'écrit donc:
(7.307)
Donc nous avons finalement:
(7.308)
Soit:
(7.309)
Finalement:
(7.310)
où nous avons utilisé le fait que:
(7.311)
est composé de:
(7.312)
termes puisqu'il correspond au nombre de façons qu'il y a de choisir
le couple (i, j) avec .
Donc finalement:
(7.313)
ou:
(7.314)
Dans la littérature spécialisée,
nous retrouvons souvent la variance écrite sous la forme
suivante en notant comme pour lors de notre étude de la
loi Normale l'événement attendu
r et l'événement non-attendu s:
(7.315)
avec donc l = n - k. Cette
dernière forme d'écriture nous sera très utile dans le chapitre
de Méthodes Numériques lors de notre étude du test de Haenzel-Mantel.
Nous voyons pour:
(7.316)
qu'il s'agit du même écart-type
que la loi binomiale, à la différence d'un facteur
qui est noté:
(7.317)
que l'on retrouve assez souvent en statistiques
et qui est appelé "facteur de
correction de population" ou en anglais "finite
population correction factor". Certain on tendance
à faire l'approximation suivante quand n est assez
grand:
(7.318)
Voici un exemple de tracé de la fonction de distribution
et répartition
pour la distribution Hypergéométrique de paramètres :

Figure: 7.13 - Loi hypergéométrique (fonction de distribution et de répartition)
Démontrons que la loi Hypergéométrique tend vers une loi binomiale
puisqu'il en est fait usage de nombreuses fois dans différents
chapitres du site (et particulièrement le chapitre de
Génie
Industriel).
Pour cela, décomposons:
(7.319)
Il vient alors:
(7.320)
Pour le deuxième terme:
(7.321)
Pour tous
les termes sont alors de l'ordre de m. Nous avons alors:
(7.322)
Pour le troisième terme un développement identique en
tous points au précédent permet d'obtenir:
(7.323)
Idem pour le quatrième terme:
(7.324)
En conclusions nous avons:
(7.325)
Changeons d'écriture en posant p (le nombre d'individus
tirés) comme étant N. Il vient alors:
(7.326)
Faisons un autre changement d'écriture en notant b les
boules noires (black) et w les boules blanches (white).
Il vient alors:
(7.327)
Enfin, notons p la proportion de boules noires et q celle
de boules blanches dans le lot n. Il vient alors:
(7.328)
Nous retrouvons donc bien la loi binomiale!! En pratique, il
est courant d'approximer la loi hypergéométrique
par une loi binomiale dès que le
rapport nombre d'individus tirés sur le nombre total d'individus
est inférieur à 10% (c'est-à-dire
lorsque l'échantillon est 10 fois plus petit que la
population). Il s'ensuit que la loi hypergéométrique
tend aussi (comme nous le démontrerons plus loin) vers
une loi Normale lorsque la population tend vers l'infini et que
l'échantillon est petit.
Dans la pratique, des simulations de Monte-Carlo avec des tests
d'ajustements (voir plus loin dans ce chapitre), ont montré qu'une
loi hypergéométrique
pouvait être approximée par une loi Normale (cas
très important dans les tests statistiques de contingence
que nous étudierons dans le chapitre de Méthodes
Numériques) si les
trois conditions suivantes étaient
remplies en même
temps:
(7.329)
Soit sous forme graphique très approximative...:

Figure: 7.14 - Conditions d'application de l'approximation par une loi Normale
Dès lors:
(7.330)
DISTRIBUTION MULTINOMIALE
La loi multinomiale
(appelée ainsi car elle fait intervenir plusieurs fois le
coefficient binomial) est une loi applicable à n événements
distinguables, chacun ayant une probabilité donnée,
qui surviennent une ou plusieurs fois et ce de façon non
nécessairement
ordonné. Il s'agit d'un cas fréquent dans les études
marketing et qui nous sera utile pour construire le test statistique
de
McNemar beaucoup plus loin (cf. chapitre
de Méthodes Numériques).
Nous retrouvons également
cette loi en finance quantitative (cf. chapitre
d'Économie).
Plus techniquement, considérons l'espace des événements muni
d'une probabilité .
Nous tirons n fois
de suite avec remise un élément de avec
la probabilité .
Nous allons chercher quelle est la probabilité d'obtenir
de manière
non nécessairement ordonnée l'événement
1, fois,
l'événement 2, fois
et ce sur une suite d'un tirage de n éléments.
Remarque: Cela équivaut à l'étude
d'un tirage avec remise (cf. chapitre de
Probabilités)
et contraintes sur les occurrences. Donc sans contraintes nous
verrons par l'exemple que nous retombons sur un tirage avec remise
simple.
Nous
avons vu dans le chapitre de Probabilités, que si
nous prenons un ensemble d'événements
ayant plusieurs issues, alors les différentes combinaisons
de suites que nous pouvons obtenir en prenant p
éléments choisis parmi n
est:
(7.331)
Il y a donc:
(7.332)
façons différentes d'obtenir
fois
un certain événement. Soit une probabilité associée
de:

Maintenant, intervient la particularité de la loi
multinomiale!: il n'y a pas d'échecs contrairement à la loi binomiale.
Chaque "pseudo-échec" peut être considéré comme un sous tirage
de parmi
les éléments restants.
Ainsi le terme:
(7.333)
s'écrira sur l'ensemble de l'expérience
si nous considérons un cas particulier limité à deux
types d'événements:
(7.334)
avec donc:
(7.335)
qui donne le nombre de façons différentes d'obtenir
fois
un second événement puisque
dans l'ensemble de la suite de n
éléments déjà ont
été tirés ce qui fait qu'il n'en reste plus
que sur
lesquels nous pouvons obtenir les voulus.
Ces relations nous montrent donc qu'il s'agit d'une situation
où chaque probabilité d'événement est
considérée comme une sous
loi binomiale (d'où son nom aussi...).
Alors nous avons dans le cas particulier de deux séries d'uplets:
(7.336)
et comme:
(7.337)
il vient:
(7.338)
et nous voyons que la construction de cette loi impose donc que:
(7.339)
Ainsi, par récurrence nous avons la probabilité P recherchée
appelée "distribution Multinomiale" (ou "loi
Multinomiale") et donnée par:
(7.340)
dans le logiciel Microsoft Excel 11.8346, le terme:
(7.341)
appelé "coefficient multinomial" est
disponible sous le nom de la fonction MULTINOMIALE( ) dans la version
française. Dans la littérature nous trouvons également
ce terme parfois sous les formes respectives suivantes:
(7.342)
Démontrons que la loi multinomiale est bien
une loi de probabilité (car nous pourrions en douter...).
Si c'est bien le cas, la somme des probabilités doit être
comme nous le savons, égale à l'unité.
Démonstration:
Rappelons que dans le chapitre de Calcul Algébrique
nous avons démontré que (théorème binomial):
(7.343)
Faisons maintenant un petit peu de
notation:
(7.344)
et cette fois-ci un changement
de variables:
(7.345)
Cette dernière relation (qui est un cas à deux
termes du "théorème multinomial") va
nous être
utile pour démontrer que la loi multinomiale est bien une
loi de probabilité. Nous prenons donc le cas particulier
avec deux groupes de tirage:
(7.346) ce qui s'écrit aussi de par
la construction de la loi multinomiale:
(7.347)
et donc la somme doit être égale à l'unité telle
que:
(7.348)
Pour vérifier cela nous utilisons le théorème
multinomial montré précédemment:
(7.349)
Or, comme
par construction de la loi multinomiale la somme des probabilités
est unitaire, nous avons bien:
(7.350)
C.Q.F.D.
Exemples:
E1. Nous lançons un dé non-pipé 12 fois. Quelle
est la probabilité que
les six faces apparaissent le même nombre de fois (mais pas nécessairement
consécutivement!) soit deux fois pour chaque:
(7.351)
où nous voyons bien que m correspond au nombre
de groupes de réussites.
E2. Nous lançons un dé non-pipé 12 fois. Quelle
est la probabilité qu'une
seule et unique face apparaisse 12 fois (donc que le "1" apparaisse
12 fois de suite, ou le "2", ou le "3", etc.):
(7.352)
Nous retrouvons donc avec ce dernier exemple un résultat
connu de la binomiale.
DISTRIBUTION DE POISSON
Pour
certains événements forts rares, la probabilité p est
très faible et tend vers zéro. Toutefois la valeur moyenne tend
vers une valeur fixe lorsque n
tend vers l'infini.
Nous
partirons donc d'une distribution binomiale de moyenne que
nous supposerons finie lorsque n
tend vers l'infini.
La
probabilité de k
réussites lors de n
épreuves vaut (loi Binomiale):
(7.353)
En
posant (où
m est temporairement la nouvelle notation pour la moyenne
selon ),
cette expression peut s'écrire:
(7.354)
En
regroupant les termes, nous pouvons mettre la valeur de sous
la forme:
(7.355)
Nous reconnaissons que, lorsque
n
tend vers l'infini, le deuxième facteur du produit a pour
limite
(cf.
chapitre d'Analyse Fonctionnelle). Quant au troisième facteur, puisque nous nous intéressons
aux petites valeurs de k (la probabilité de réussite est très
faible), sa limite pour n tendant vers l'infini vaut 1.
Cette technique de passage à la limite est parfois appelée
dans ce contexte: "théorème
limite de Poisson".
Nous obtenons ainsi la "distribution de
Poisson" (ou "loi de
Poisson"), appelée également parfois "loi
des événements rares", donnée donc par:
(7.356)
qui peut être obtenue dans Microsoft Excel 11.8346
avec la fonction LOI.POISSON( )
et qui dans la pratique et la littérature spécialisée
est souvent notrée par la lettre u.
Il s'agit bien d'une loi de probabilité puisqu'en utilisant
les séries de Taylor (cf. chapitre
de Suites Et Séries),
nous montrons que la somme des probabilités
cumulées est bien:
(7.357)
Remarque: Nous retrouverons fréquemment cette loi
dans différents
chapitres du site comme par exemple lors de l'étude de la
maintenance préventive dans le chapitre de Génie
Industriel ou encore
dans le
chapitre des Techniques De Gestion lors de l'étude des théories
des files d'attentes (le lecteur peut s'y reporter pour des exemples
intéressants
et pragmatiques) et enfin dans le domaine de l'assurance vie
et non vie.
Voici un exemple de tracé de la fonction de distribution
et répartition
pour la distribution de Poisson de paramètre :
 
Figure: 7.15 - Loi de Poisson (fonction de distribution et de répartition)
Cette distribution est importante
car elle décrit beaucoup de processus dont la probabilité est
petite et constante. Elle est souvent utilisée dans la théorie
des files d'attente (temps d'attente), test d'acceptabilité et
fiabilité
et contrôles
statistiques de qualité. Entre autres, elle s'applique
aux processus tels que l'émission des quanta de lumière
par des atomes excités,
le nombre de globules rouges observés au microscope,
le nombre d'appels arrivant à une centrale téléphonique.
La distribution de Poisson est valable pour de nombreuses
observations faites en physique nucléaire ou corpusculaire.
L'espérance (moyenne) de
la distribution de Poisson est (nous utilisons la série de Taylor
de l'exponentielle):
(7.358)
et donne le nombre moyen de fois que l'on obtiendra l'issue souhaitée.
Ce résultat
peut paraître déroutant.... la moyenne s'exprime
par la moyenne??? Oui il ne faut simplement pas oublier que celle-ci
est donnée
au début par:
(7.359)
Remarque: Pour plus de détails le lecteur
peut aussi se reporter à la partie concernant les "estimateurs" plus
loin dans le présent chapitre.
La variance de la fonction
de distribution de Poisson est quant à elle donnée
par (en utilisant à
nouveau les séries de Taylor):

(7.360)
toujours avec:
(7.361)
Le fait important que pour la loi de Poisson nous ayons la variance
qui soit égale à l'espérance est appelé "propriété
d'équidispersion de la de Poisson". Il s'agit d'une
propriété souvent utilisée dans la pratique comme indicateur pour
identifier si des données (à support discret) sont distribuées
selon une loi de Poisson.
Les lois théoriques de distributions
statistiques sont établies en supposant la réalisation
d'un nombre infini de mesures. Il est évident que nous ne
pouvons en effectuer qu'un nombre fini N.
D'où la nécessité d'établir des correspondances
entre les valeurs utiles théoriques et expérimentales.
Pour ces dernières nous n'obtenons
évidemment qu'une approximation dont
la validité est toutefois souvent admise comme suffisante.
Maintenant démontrons une propriété importante
de la loi Poisson dans le domaine de l'ingénierie que nous
appelons la "stabilité par l'addition". L'idée
est la suivante:
Soit deux variables aléatoires indépendantes X et
Y de loi de Poisson de paramètre respectif et .
Nous voulons vérifier que leur somme est aussi une loi
de Poisson:
(7.362)
Voyons cela:
(7.363)
car les événements sont indépendants.
Nous avons alors:
(7.364)
Or, en appliquant le théorème binomial
(cf. chapitre Calcul Algébrique):
(7.365)
Donc au final:
(7.366)
et donc la loi de Poisson est stable par l'addition.
Donc toute loi de Poisson dont le paramètre est connu est
in extenso indéfiniment divisable en une quantité finie ou infinie de lois
de Poisson indépendante qui se somment.
DISTRIBUTION DE GAUSS-LAPLACE/LOI NORMALE
Cette caractéristique est la plus importante fonction de
distribution en statistiques suite au résultat d'un théorème
connu appelé "théorème central limite"
qui comme nous le verrons,
permet de démontrer (entre autres) que la somme de toute
suite de variables aléatoires
indépendantes de même loi ayant une espérance
et un écart-type fini
converge vers une distribution de Gauss-Laplace (loi Normale).
Il est donc très important
de focaliser particulièrement son attention sur les développements
qui vont être faits ici!
Partons d'une distribution
binomiale et faisons tendre le nombre n d'épreuves
vers l'infini. Si p est fixé au départ,
la moyenne tend également
vers l'infini, de plus l'écart-type tend également
vers l'infini.
Remarque: Le cas où p varie et tend vers
0 tout en laissant fixe la moyenne 
ayant déjà été étudié lors
de la présentation
de la distribution de Poisson.
Si nous voulons calculer
la limite de la distribution Binomiale, il s'agira donc de faire
un changement d'origine qui stabilise la moyenne, en 0 par exemple,
et un changement d'unité qui stabilise l'écart-type, à 1 par exemple.
Voyons tout d'abord comment
varie en
fonction de k
(nombre de réussites) et calculons la différence:
(7.367)
Nous en concluons que est
une fonction croissante de k,
tant que
est positif (pour n, p et q fixés).
Pour le voir il suffit de prendre quelques valeurs (du membre de
droite de l'égalité) ou d'observer la distribution
graphique de la distribution Binomiale en se souvenant bien que:
(7.368)
Comme
il est par conséquent évident que la valeur de k voisine
de l'espérance de la loi Binomiale
constitue le maxima de .
D'autre part la différence est
le taux d'accroissement de la fonction .
Nous pouvons alors écrire:
(7.369)
comme étant la pente de la fonction.
Définissons maintenant
une nouvelle variable aléatoire telle que sa moyenne soit nulle
(variations négligeables)
et son écart-type unitaire (une variable centrée-réduite en d'autres
termes). Nous avons alors:

Nous avons alors aussi avec cette nouvelle variable
aléatoire:
(7.370)
Notons F(x) l'expression
de calculée
en fonction de la nouvelle variable aléatoire de moyenne nulle
et d'écart-type
unitaire dont nous recherchons l'expression quand n tend
vers l'infini.
Reprenons:
(7.371)
Afin de simplifier l'étude de cette relation quand n tend
vers l'infini et k vers l'espérance , multiplions
des deux côtés
par :
(7.372)
Réécrivons le terme de droite de l'égalité.
Il vient alors:
(7.373)
Et maintenant réécrivons le terme de gauche de
la relation antéprécédente.
Il vient:
Après un passage à la limite pour n tendant vers
l'infini nous avons dans un premier temps pour le dénominateur
du deuxième terme de la relation antéprécédente:
(7.374)
la simplification suivante:
(7.375)
Donc:
(7.376)
et dans un second temps, tenant compte du fait que les valeurs
de k considérées se trouvent alors au voisinage de l'espérance np,
nous obtenons:
(7.377)
et:
(7.378)
Donc:
(7.379)
et comme:
(7.380)
où F(x) représentera (maladroitement)
pour les quelques lignes qui vont suivre, la fonction de densité lorsque n tend
vers l'infini.
Nous avons finalement:
(7.381)
Cette relation peut encore
s'écrire en réarrangeant les termes:
(7.382)
et en intégrant les deux
membres de cette égalité nous obtenons (cf.
chapitre de Calcul Différentiel Et Intégral):
(7.383)
La fonction suivante est
une des solutions de la relation précédente:
(7.384)
Effectivement:
(7.385)
La constante est déterminée
par la condition que:
(7.386)
qui
représente la somme de toutes les probabilités,
qui doit valoir 1. Nous pouvons montrer pour cela que nous devons
avoir:
(7.387)
Démonstration:
Nous avons:
(7.388)
Donc concentrons-nous sur le dernier terme de l'égalité.
Ainsi:
(7.389)
puisque
est une fonction paire (cf. chapitre d'Analyse
Fonctionnelle).
Écrivons maintenant le carré de l'intégrale
de la manière suivante:
(7.390)
et faisons un changement
de variable en passant en coordonnées polaires, dès
lors nous faisons aussi usage du Jacobien dans ces mêmes
coordonnées
(cf. chapitre de Calcul Différentiel
Et Intégral):
(7.391)
Par extension pour
nous avons:
(7.392)
C.Q.F.D.
Nous obtenons
donc la "loi Normale centrée
réduite" notée sous forme de fonction
de densité de probabilité (la notation avec le F majuscule
peut malheureusement porter à confusion dans le cadre
du présent
développement avec le fonction de répartition...
désolé...):
(7.393)
qui peut être calculée dans la version française
Microsoft Excel 11.8346 avec
la fonction LOI.NORMALE.STANDARD( ).
Pour
information, une variable suivant une loi Normale centrée
réduite est très souvent par tradition notée Z (pour
"Zentriert" en allemand).
En revenant aux variables non normées:
(7.394)
nous obtenons donc la "distribution
Gauss-Laplace" (ou "loi
de Gauss-Laplace") ou également appelée "loi
Normale" donnée sous forme de densité de probabilité
par:
(7.395)
et souvent notée:
(7.396) ou plus couramment (ainsi les deux termes de la parenthèse ont
les mêmes unités):
(7.397)
Elle peut être calculée dans la
version française
de Microsoft Excel 11.8346 avec la fonction LOI.NORMALE( ).
La probabilité cumulée (fonction de répartition)
de valoir une certaine valeur k étant
bien évidemment donnée par:
(7.398)
Voici un exemple de tracé de la fonction de distribution
et répartition pour la distribution Normale de paramètres qui
est dès lors la loi Normale centrée réduite:
 
Figure: 7.16 - Loi Normale Centrée Réduite (fonction de distribution et de répartition)
Cette loi régit sous des conditions très générales,
et souvent rencontrées, beaucoup de phénomènes
aléatoires. Elle est par ailleurs symétrique par
rapport à la moyenne (c'est
important de s'en souvenir).
Montrons maintenant que représente
bien l'espérance mathématique (ou la moyenne) de x (c'est
un peu bête mais on peut quand même vérifier...):
(7.399)
Posons:
(7.400)
Nous avons dès lors:
(7.401)
Calculons la première intégrale:
(7.402)
Donc il vient au final:
(7.403)
Remarques:
R1. Le lecteur pourrait trouver cela déroutant
dans un premier temps que le paramètre d'une distribution
soit un des résultats que nous cherchons de la distribution
(comme cela était le cas pour la loi de Poisson). Ce qui dérange
est la mise en pratique d'une telle chose. Au fait, tout s'éclairera
lorsque nous étudierons plus loin dans ce chapitre les
concepts
"d'estimateurs de vraisemblance".
R2. Indiquons que dans la pratique (finance, qualité, assurance,
etc.) il est fréquent de devoir calculer l'espérance uniquement
pour des valeurs positives de la variable aléatoire qui est
définie alors naturellement comme étant "l'espérance positive"
et donnée par:
(7.404)
Nous en verrons un exemple pratique dans le chapitre d'Économie
lors de notre étude du modèle théorique
de la spéculation de
Louis Bachelier.
Montrons aussi (...) que représente
bien l'écart-type de X (en
d'autres termes de montrer que )
et pour cela rappelons que nous avions démontré que
(relation de Huyghens):
(7.405)
Nous savons déjà qu'au niveau des notations:
(7.406)
commençons alors par calculer :
(7.407)
Posons qui conduit dès lors à:
(7.408)
Or, nous savons:
(7.409)
Il reste donc à calculer
la première intégrale. Pour cela, procédons
par une intégration par parties (cf.
chapitre de Calcul Différentiel
et Intégral):
(7.410)
D'où:
(7.411)
Il vient finalement:
(7.412)
Une signification supplémentaire de l'écart-type dans
la loi de Gauss-Laplace est une mesure de la largeur de la distribution
telle que (cela ne peut se vérifier qu'à l'aide d'intégration
à l'aide de méthodes numériques) que toute
moyenne et pour tout écart-type non nul nous avons:

Figure: 7.17 - Intervalles sigma de la loi Normale
La largeur de l'intervalle
a une très grande importance dans l'interprétation
des incertitudes d'une mesure. La présentation d'un résultat
comme signifie
que la valeur moyenne a environ 68.3% de chance (probabilité)
de se trouver entre les limites de et
,
ou qu'elle a environ 95.4% de se trouver entre et
etc.
Remarque: Ce concept est beaucoup utilisé en
gestion de la qualité en entreprise particulièrement
avec le concept industriel anglo-saxon Six Sigma ( cf.
chapitre de Génie Industriel) qui impose
une maîtrise
de 6 
autour de chaque côté (!) de la moyenne des côtés
des pièces fabriquées (ou tout autre sujet dont
on mesure la déviation).
Niveau de qualité Sigma |
Taux
de non-défection assuré en % |
Taux de défection
en parties par million |
1  |
68.26894 |
317'311 |
2  |
95.4499 |
45'500 |
3  |
99.73002 |
2'700 |
4  |
99.99366 |
63.4 |
5  |
99.999943 |
0.57 |
6  |
99.9999998 |
0.002 |
Tableau: 7.8
- Niveau de qualité Sigma avec taux de défection/non-défection
La deuxième colonne du tableau peut facilement
être obtenue avec Maple 4.00b (ou aussi avec le tableur
de Microsoft). Par exemple pour la première
ligne:
>S:=evalf(int(1/sqrt(2*Pi)*exp(-x^2/2),x=-1..1));
et la première ligne de la troisième colonne par:
>(1-S)*1E6;
Si la loi Normale était décentrée,
il suffirait alors d'écrire pour la deuxième colonne:
>S:=evalf(int(1/sqrt(2*Pi)*exp(-(x-mu)^2/2),x=-1..1));
et ainsi de suite pour tout écart-type et toute moyenne
on retombera sur les mêmes intervalles!!!
La loi de Gauss-Laplace n'est par ailleurs pas qu'un outil d'analyse
de données mais également de génération
de données. Effectivement, cette loi est une des plus
importantes dans le monde des multinationales qui recourent
aux outils statistiques
pour la gestion du risque, la gestion de projets et la simulation
lorsqu'un grand nombre de variables aléatoires sont en
jeu. Les meilleurs exemples d'applications en étant
les logiciels CrystalBall ou @Risk de Palisade (ce dernier étant
mon préféré...).
Dans ce cadre d'application (gestion de projets), il est par ailleurs
très souvent fait usage de la somme (durée des tâches)
ou le produit de variables aléatoires (facteur d'incertitude
du client) suivant des lois de Gauss-Laplace. Voyons comment cela
se calcule:
SOMME DE DEUX VARIABLES ALÉATOIRES NORMALES
Soient X, Y deux variables aléatoires
indépendantes. Supposons que X suit la loi et
que Y suit la loi .
Alors, la variable aléatoire aura
une densité égale au produit de convolution de .
C'est-à-dire:
(7.413)
ce qui équivaut à faire le produit conjoint (cf.
chapitre de Probabilités) des probabilités
d'apparition des deux variables continues (se rappeler le même
genre de calcul sous forme discrète!).
Pour simplifier l'expression, faisons le changement de variable et
posons , .
Comme:
(7.414)
nous obtenons:
(7.415)
Nous posons:
(7.416)
Alors:
(7.417)
Sachant que:
(7.418)
et:
(7.419)
notre
expression devient:
(7.420)
Nous reconnaissons l'expression de la loi de Gauss-Laplace de
moyenne et
d'écart type .
Par conséquent, suit
la loi:
(7.421)
Le fait que la somme de deux lois Normales donne toujours une
loi Normale est
ce que nous nommons en statistiques la "stabilité par
la somme" de
la loi de Gauss-Laplace. Nous retrouverons ce type de propriétés
pour d'autres lois que nous étudierons plus loin.
Donc au même titre que loi de Poisson, toute loi Normale
dont les paramètres
sont connus est in extenso indéfiniment divisable en
une quantité finie
ou infinie de lois Normale indépendantes qui se somment
telles que:
(7.422)
Remarque: Les familles de lois stables
par addition constituent un domaine important d'étude en
physique, finance et statistiques appelé "distributions
de Lévy
alpha-stables". Si le temps me le permet, je présenterai
les détails de ce domaine d'étude extrêmement
important dans le présent chapitre.
PRODUIT DE DEUX VARIABLES ALÉATOIRES NORMALES
Soient X, Y deux variables aléatoires indépendantes
réelles.
Nous désignerons
par et les
densités correspondantes et nous cherchons à déterminer
la densité de
la variable (cas
très important et particulièrement en ingénierie).
Notons f la fonction de densité du couple (X, Y).
Vu que X, Y sont indépendantes (cf.
chapitre de Probabilités):
(7.423)
La fonction de répartition de Z est:
(7.424)
où .
D peut se réécrire comme union disjointe (nous faisons
cette opération pour anticiper lors du futur changement de variables
une division par zéro):
(7.425)
avec:
(7.426)
Nous avons:
(7.427)
La dernière intégrale vaut zéro car est
de mesure (épaisseur) nulle pour l'intégrale selon x.
Nous effectuons ensuite le changement de variable suivant:
(7.428)
Le jacobien de la transformation (cf. chapitre
de Calcul Différentiel Et Intégral) est:
(7.429)
Donc:
(7.430)
Notons la
densité de la variable Z. Par définition:
(7.431)
D'un autre côté:
(7.432)
comme nous venons de le voir. Par conséquent:
(7.433)
Ce qui est un peu triste c'est que dans le cas d'une loi de
Gauss-Laplace (loi Normale), cette intégrale ne peut être
calculée
simplement que numériquement...
il faut alors faire appel à des méthodes d'intégration
du type Monte-Carlo (cf. chapitre de Méthodes
Numériques).
D'après quelques recherches faites sur Internet cependant,
mais sans certitude, cette intégrale pourrait être
calculée
et donnerait une nouvelle loi appelée "loi
de Bessel".
DISTRIBUTION NORMALE BIVARIÉE
Si deux variables aléatoires Normalement distribuées
sont indépendantes,
nous savons que la probabilité jointe est égale au
produit des probabilités. Nous avons alors:
(7.434)
Vient maintenant une approche que nous retrouverons
souvent dans les développements à suivre: pour généraliser
des modèles en algèbre simple, il faut penser matriciel!
Dès lors on se retrouve avec deux vecteurs faisant intervenir
un produit scalaire:
(7.435)
Mais nous pouvons faire encore mieux car pour l'instant
il n'y a aucune plus value à cette écriture! Effectivement
l'idée
subtile vient à faire intervenir le déterminant d'une
matrice (cf. chapitre d'Algèbre Linéaire)
et l'inverse de cette même
matrice dans la relation précédente:
(7.436)
Nous retrouvons donc un cas particulier de la matrice
des variances-covariances. Dans le domaine de la loi Normale bivariée
est il est d'usage d'écrire cette dernière relation
sous la forme suivante dans le cas bivarié:
(7.437)
Si nous faisons un plot de cette fonction de densité
nous obtenons:

Figure: 7.18 - Plot de la fonction de densité Normale bivariée
Maintenant considérons le cas important en
ingénierie en revenant à l'écriture suivante:
(7.438)
et en nous intéressant aux iso-lignes tels
que pour tout couple de valeurs des deux variables aléatoires,
nous ayons:
(7.439)
En faisant quelques manipulations algébriques
très élémentaires, nous obtenons:
(7.440)
Soit:
(7.441)
et il vient:
(7.442)
Nous reconnaissons ici l'équation analytique
d'une ellipse (cf. chapitre de Géométrique
Analytique)! Il est alors aisé de déterminer
le petit ou grand axe de l'ellipse (ce qui est très utilisé dans
le cartes de contrôle bivariées dans le domaine du
Génie
Industriel). Mais il ne faut pas oublier que cette équation n'est
valable que dans le cas particulier ou la corrélation est nulle!
Un tracé des iso-lignes donne pour :
Figure: 7.19 - Plot des iso-lignes de la fonction de densité Normale bivariée
(cas
non
corrélé)
Mais maintenant rappelons
que lorsque nous avions obtenu:
(7.443)
la matrice des variances-covariances était
nulle partout sauf sur la diagonale, ce qui impliquait in extenso
l'indépendance des deux variables aléatoires. Nous
pouvons évidemment deviner que la généralisation
consiste à dire que la matrice des variances-covariances
n'est pas non-nulle que dans la diagonale et alors les deux variables
aléatoires sont corrélées. Dès lors,
les iso-lignes deviennent par exemple avec les valeurs :

Figure: 7.20 - Plot des iscolines la fonction de denstié Normale bivariée
(cas
dépendant)
Donc la corrélation
fait pivoter l'axe des ellipses! Remarquons que nous avons dès
lors:
(7.444)
et donc in extenso:
(7.445)
Rappelons que nous avons vu lors de notre étude
du coefficient de corrélation que (bon normalement.... la
notation R pour la corrélation est prise que si les variances
sont estimées
mais comme c'est la notation la plus courante dans
la pratique nous la garderons):
(7.446)
Dès lors:
(7.447)
et l'exposant de l'exponentielle de la Normale bivariée
prend alors une forme que nous retrouvons très souvent dans
la littérature
spécialisée:
(7.448)
l'exposant de l'exponentielle de la loi Normale
bivariée
est alors:
(7.449)
Ainsi, la fonction de densité de la loi Normale
centrée réduite bivariée s'écrit:
(7.450)
Ainsi, nous pouvons voir qu'une distribution Normale
bivariée centrée réduite peut être construite
par la multiplication de deux lois normales centrées réduites
et par la multiplication d'un terme dépendant principalement
du paramètre de corrélation. Ce dernier terme contient
la nature de la dépendance des deux variables aléatoires
et permet de coupler les fonctions marginales (les deux distributions
de probabilités Normales centrées réduites
marginales) afin d'obtenir la fonction (distribution) jointe Normale
bivarieé.
Si jamais (cela peut-être très utile
dans la pratique), voici le code Maple 4.00b pour tracer une fonction
bivariée Normale (en reprenant le dernier exemple):
>f:=(x,y,rho,mu1,mu2,sigma1,sigma2)->(1/(2*Pi*sqrt(sigma1^2*sigma2^2*(1-rho^2))))*exp((-1/(2*(1-rho^2)))*(((x-mu1)/sigma1)^2+((y-mu2)/sigma2)^2-2*rho*((x-mu1)/sigma1)*((y-mu2)/sigma2)));
>
plot3d(f(x,y,5/sqrt(10*5),3,2,sqrt(10),sqrt(5)),x=-30..30,y=-30..30,grid=[40,40]);
et pour le tracé avec les iso-lignes:
>with(plots):
>contourplot(f(x,y,5/sqrt(10*5),3,2,sqrt(10),sqrt(5)),x=-30..30,y=-30..30,grid=[40,40]);
et nous pouvons contrôler qu'il s'agit bien
d'une fonction de densité de probabilité:
>int(int(f(x,y,5/sqrt(10*5),3,2,sqrt(10),sqrt(5)),x=-infinity...+infinity),y=-infinity...+infinity);
ou calculer la probabilité cumulée
entre deux intervalles:
>evalf(int(int(f(x,y,5/sqrt(10*5),3,2,sqrt(10),sqrt(5)),x=-3...+4),y=-5...+2));
DISTRIBUTION NORMALE CENTRÉE RÉDUITE
La distribution
de Gauss-Laplace n'est pas tabulée puisqu'il faudrait
autant de tables numériques que de valeurs possibles pour la
moyenne
et l'écart-type (qui
sont donc des paramètres de la distribution comme nous l'avons
vu).
C'est pourquoi, en opérant un changement de variable, la loi Normale
devient la "loi Normale centrée réduite"
où:
1. "Centrée" signifie
soustraire la moyenne
(la fonction de distribution a alors pour axe de symétrie
l'axe des ordonnées).
2. "Réduite" signifie,
diviser par l'écart-type (la
fonction de distribution a alors une variance unitaire).
Par ce changement de variable, la variable k est remplacée
par la variable aléatoire centrée réduite:
(7.451)
Si la variable k a pour moyenne et
pour écart- type alors
la variable a
pour moyenne 0 et pour écart-type 1 (cette dernière étant
le plus souvent notée Z).
Donc la relation:
(7.452)
s'écrit
alors (trivialement) plus simplement:
(7.453)
qui n'est d'autre que l'expression de la loi Normale centrée
réduite souvent notée N(0,1) que nous retrouverons
très fréquemment dans les chapitres relatifs à la
physique, la finance, la gestion et l'ingénierie!
Remarque: Calculer l'intégrale
de la relation précédente
entre n'importe quelles bornes n'est pas possible formellement
parlant de manière exacte. Une idée possible et simple
consiste alors à
exprimer l'exponentielle en série de Taylor et de faire
ensuite l'intégration
terme par
terme de la série (en s'assurant de prendre suffisamment
de termes pour la convergence!).
DROITE DE HENRY
Souvent, dans les entreprises c'est la loi de Gauss-Laplace
(Normale) qui est analysée mais des logiciels courants
et facilement
accessibles comme Microsoft Excel
sont
incapables
de vérifier que les données mesurées suivent
une loi Normale lorsque nous faisons de l'analyse fréquentielle
(aucun outil intégré par
défaut
ne permet de le faire) et que nous n'avons pas les données
d'origines non groupées.
L'astuce consiste alors à utiliser la variable centrée réduite
qui
se construit comme nous l'avons démontré plus haut
avec la relation suivante:
(7.454)
L'idée de la droite d'Henry est alors d'utiliser la relation
linéaire
entre k et k* donnée par l'équation
de la droite:
(7.455)
et qui peut être tracée pour déterminer la moyenne et l'écart-type
de la loi Normale.
Exemple:
Supposons que nous ayons l'analyse fréquentielle suivante de
10'000 tickets de caisse dans un supermarché:
Montant
des
tickets |
Nombre
de tickets |
Nombre
cumulé de tickets |
Fréquences
relatives cumulées |
[0,50[ |
668 |
668 |
0.068 |
[50,100[ |
919 |
1'587 |
0.1587 |
[100,150[ |
1'498 |
3'085 |
0.3085 |
[150,200[ |
1'915 |
5'000 |
0.5000 |
[200,250[ |
1'915 |
6'915 |
0.6915 |
[250,300[ |
1'498 |
8'413 |
0.8413 |
[300,350[ |
919 |
9'332 |
0.9332 |
[350,400[ |
440 |
9'772 |
0.9772 |
[400
et + |
228 |
10'000 |
1 |
Tableau: 7.9
- Intervalles de classe pour la détermination de la droite de Henry
Si nous traçons maintenant cela sous Microsoft Excel 11.8346 nous
obtenons:

Figure: 7.21 - Distribution des ventes de tickets
Ce qui ressemble terriblement à une loi Normale d'où l'autorisation,
sans trop de risques, d'utiliser dans cet exemple la technique
de la
droite
d'Henry.
Mais que faire maintenant? Eh bien connaissant les fréquences
cumulées, il ne nous reste plus qu'à calculer pour
chacune d'entre elles k* à l'aide de tables
numériques
ou avec la fonction NORMSINV( ) de la version anglaise de Microsoft
Excel 11.8346 (car rappelons que l'intégration
formelle de la distribution gaussienne n'est pas des plus faciles...).
Ceci nous donnera les valeurs de la loi Normale centrée
réduite N(0,1)
de ces mêmes fréquences respectives cumulées (fonction
de répartition).
Ainsi nous obtenons (nous laissons le soin au lecteur de chercher
sa
table
numérique ou d'ouvrir son logiciel préféré...):
Borne
supérieure de l'intervalle |
Fréquences
relatives cumulées |
Correspondance
pour k* de N(0,1) |
50 |
0.068 |
-1.5 |
100 |
0.1587 |
-1 |
150 |
0.3085 |
-0.5 |
200 |
0.5000 |
0 |
250 |
0.6915 |
0.5 |
300 |
0.8413 |
1 |
350 |
0.9332 |
1.5 |
400 |
0.9772 |
2 |
- |
1 |
- |
Tableau: 7.10
- Fréquences relatives cumulées pour la droite de Henry
Signalons que dans le type de tableau ci-dessus, dans Microsoft Excel,
les valeurs de fréquences cumulées nulles
et unitaires (extrêmes)
posent des problèmes. Il faut alors jouer un petit peu...
Comme nous l'avons spécifié plus haut, nous avons sous
forme discrète:
(7.456)
Donc graphiquement sous Microsoft Excel 11.8346 nous
obtenons grâce à notre
tableau le graphique suivant (évidemment en toute rigueur
on fera une régression linéaire dans les règles
de l'art comme vu dans le chapitre de Méthodes Numériques
avec intervalles de confiance, de prédiction
et tout le toutim...):

Figure: 7.22 - Forme linéarisée
de la distribution
Donc à l'aide de la régression donnée par
Microsoft Excel 11.8346 (ou calculée
par vos soins selon les techniques de régressions linéaires
vues dans le chapitre de Méthodes Numériques). Il
vient:
(7.457)
dont nous déduisons immédiatement:
(7.458)
Il s'agit donc d'une technique particulière pour une distribution
particulière! Des techniques similaires plus ou moins simples
(ou compliquées suivant les cas...) existent pour d'autres
distributions.
Voyons une autre manière approximative d'aborder le problème.
Reprenons pour cet exemple notre tableau:
Tickets |
Borne
droite |
Centre |
Fréquences
relatives cumulées en% |
[0,50[ |
50 |
25 |
6.8 |
[50,100[ |
100 |
75 |
15.87 |
[100,150[ |
150 |
125 |
30.85 |
[150,200[ |
200 |
175 |
50.00 |
[200,250[ |
250 |
225 |
69.15 |
[250,300[ |
300 |
275 |
84.13 |
[300,350[ |
350 |
325 |
93.32 |
[350,400[ |
400 |
375 |
97.72 |
[400 et + |
- |
- |
100 |
La moyenne sera maintenant calculée à l'aide de la valeur centrale
des intervalles et des effectifs selon la relation vue au début
de ce chapitre:
(7.459)
Tickets |
Centre |
Tickets
(fréquence) |
Calcul |
[0,50[ |
25 |
668 |
16'700 |
[50,100[ |
75 |
919 |
68'925 |
[100,150[ |
125 |
1'498 |
187'250 |
[150,200[ |
175 |
1'915 |
335'125 |
[200,250[ |
225 |
1'915 |
430'875 |
[250,300[ |
275 |
1'498 |
411'950 |
[300,350[ |
325 |
919 |
298'675 |
[350,400[ |
375 |
440 |
165'000 |
[400 et + |
- |
- |
- |
|
Somme: |
9772 |
1'914'500 |
|
|
Moyenne: |
1'914'500/9'772
=195.92
|
La moyenne que nous venons de calculer est donc assez proche de
la moyenne obtenue précédemment avec la droite de
Henry.
L'écart-type sera maintenant calculé à l'aide de la valeur centrale
des intervalles et des effectifs selon la relation vue aussi au
début de ce chapitre:
(7.460)
Tickets |
Centre |
Tickets
(fréquence) |
Calcul |
[0,50[ |
25 |
668 |
1997.00 |
[50,100[ |
75 |
919 |
1375.08 |
[100,150[ |
125 |
1'498 |
771.02 |
[150,200[ |
175 |
1'915 |
85.76 |
[200,250[ |
225 |
1'915 |
165.71 |
[250,300[ |
275 |
1'498 |
958.65 |
[300,350[ |
325 |
919 |
1566.93 |
[350,400[ |
375 |
440 |
1443.98 |
[400 et + |
- |
228 |
- |
|
|
Variance: |
8364.16 |
|
|
Ecart-Type: |
91.45 |
L'écart-type que nous venons de calculer est donc assez
proche de l'écart-type obtenu avec la méthode de
la droite de Henry.
DIAGRAMME QUANTILE-QUANTILE
Une autre manière de juger qualitativement de l'ajustement de
données expérimentales avec une loi théorique (quelle qu'elle soit!!!)
est l'utilisation d'un "diagramme quantile-quantile".
L'idée est assez simple, il s'agit de comparer les données
expérimentales aux données théoriques supposées
suivre une loi donnée.
Ainsi, dans le cas de notre exemple nous avons en prenant les valeurs
de la moyenne (~200) et l'écart-type (~100)
obtenus avec la droite de Henry comme paramètres théorique de la
loi Normale, nous obtenons alors:
Tickets |
Borne de
droite
expérimentale (imposée) |
Fréquences
relatives cumulées en %
|
Borne de
droite
théorique (calculée) |
[0,50[ |
50 |
6.80% |
50.91 |
[50,100[ |
100 |
15.87% |
100.02 |
[100,150[ |
150 |
30.85% |
149.99 |
[150,200[ |
200 |
50.00% |
200 |
[200,250[ |
250 |
69.15% |
250.01 |
[250,300[ |
300 |
84.13% |
299.98 |
[300,350[ |
350 |
93.32% |
350.00 |
[350,400[ |
400 |
97.72% |
399.90 |
[400 et + |
- |
100% |
- |
Représenté graphiquement, cela nous donne donc le fameux diagramme
quantile-quantile:

Figure: 7.23 - Diagramme quantile-quantile de la distribution
Et bien évidemment on peut comparer les quantiles observés à toute
loi théorique supposée. Plus les points seront alignés
sur la droite de pente unitaire et d'ordonnée à l'origine nulle,
meilleur sera l'ajustement! C'est très
visuel, très simple et beaucoup
utilisé par les non spécialistes en statistiques
dans les entreprises.
DISTRIBUTION LOG-NORMALE
Nous disons qu'une variable
aléatoire positive X suit une "distribution
log-normale"
(ou "loi log-normale")
de paramètres si en posant:
(7.461)
nous voyons que y suit une fonction de probabilité de
type loi Normale de moyenne et
de variance (moments
de la loi Normale).
In extenso, de par les propriétés des logarithmes,
une variable peut être
modélisée
par une loi log-normale si elle est le résultat de la multiplication
d'un grand nombre de petits facteurs indépendants (propriété
du produit en somme des logarithmes et de la stabilité de
la loi Normale par l'addition).
La fonction de densité de X pour est
alors (cf. chapitre de Calcul Intégral):
(7.462)
qui peut être calculée dans la version française
de Microsoft Excel 11.8346 avec la fonction LOI.LOGNORMALE( )
ou pour la réciproque par LOI.LOGNORNALE.INVERSE( ).
Ce type de scénario se retrouve fréquemment en physique,
dans les techniques de maintenance ou encore en finance des marchés
dans le modèle de pricing des options (voir ces chapitres
respectifs du site pour des exemples concrets). Il y a par ailleurs
une remarque importante relativement à la loi log-normale
dans le traitement plus loin du théorème central
limite!
Montrons que la fonction de probabilité cumulée
correspond bien à une loi Normale si nous faisons le changement
de variable mentionné précédemment:
(7.463)
en posant:
(7.464)
et:
(7.465)
nous avons bien:
(7.466)
nous tombons donc bien sur une loi Normale!
L'espérance (moyenne)
de X est donnée alors par (le logarithme népérien
n'étant pas défini pour nous
bornons l'intégrale à partir de zéro):
(7.467)
où nous avons effectué le changement de variable:
(7.468)
L'expression:
(7.469)
étant
par ailleurs égale à:
(7.470)
la dernière intégrale
devient donc:
(7.471)
et où nous avons utilisé la propriété qui
a émergée lors de notre
étude de la loi Normale, c'est-à-dire que toute intégrale
de la forme:
(7.472)
a donc toujours la même valeur!
Pour le calcul de la variance, rappelons que pour une variable
aléatoire X, nous avons la relation de Huyghens:
(7.473)
Calculons en
procédant de manière similaire aux développements précédents:
(7.474)
où nous avons encore une fois le changement de
variable:
(7.475)
et où nous avons transformé l'expression:
(7.476)
sous la forme:
(7.477)
Donc:
(7.478)
Voici un exemple de tracé de la fonction de distribution
et répartition
pour la fonction Log-Normale de paramètres :

Figure: 7.24 - Loi Log-Normale (fonction de distribution et de répartition)
DISTRIBUTION UNIFORME CONTINUE
Soient .
Nous définissons la fonction de distribution de la "distribution
uniforme" (ou "loi uniforme")
par la relation:
(7.479)
où signifie
qu'en dehors du domaine de définition [a, b]
la fonction de distribution est nulle. Nous retrouverons ce type
de notation pour certaines autres fonctions de distribution plus
loin.
Nous avons donc pour fonction de répartition:

Il s'agit bien d'une fonction
de distribution car elle vérifie (intégrale simple):
(7.480)
La distribution uniforme a par
ailleurs pour espérance (moyenne):
(7.481)
et pour variance en utilisant la relation de Huyghens:
(7.482)
Voici un exemple de tracé de la fonction de distribution
et respectivement de répartition
pour la loi Uniforme continue de paramètres :

Figure: 7.25 - Loi uniforme continue (fonction de distribution et de répartition)
Remarque: Cette distribution est souvent utilisée en
simulation dans les entreprises pour signaler que la variable
aléatoire
a des probabilités égales d'avoir une valeur comprise
dans un certain intervalle (typiquement dans les rendements de
portefeuilles ou encore dans l'estimation des durées des
projets). Le meilleur exemple d'application étant à
nouveau le logiciel CrystalBall ou @Risk qui s'intègrent
dans Microsoft Project.
Voyons un résultat intéressant de la loi Uniforme continue (et
qui s'applique à la discrète aussi en fait...).
Souvent j'entends des gestionnaires (qui se jugent de haut niveau)
dire que comme une mesure a une probabilité égale d'avoir lieu
dans un intervalle fermé donné, alors la somme de deux variables
aléatoires indépendantes du même type aussi!
Or nous allons démontrer ici que ce n'est pas le cas (si quelqu'un
a une démonstration plus élégante je suis
preneur)!
Démonstration:
Considérons deux variables aléatoires indépendantes X et Y qui
suivent une loi uniforme dans un intervalle fermé [0,a].
Nous cherchons donc la densité de leur somme qui sera notée:
(7.483)
Nous avons alors:
(7.484)
avec la variable:
(7.485)
Pour calculer la loi de la somme, rappelons que nous savons qu'en
termes discrets cela équivaut à faire le produit
conjoint des probabilités
(cf. chapitre de Probabilités)
d'apparition des deux variables continues (se rappeler le même
genre de calcul sous forme discrète!).
C'est-à-dire:
(7.486)
Comme si et
0 sinon alors le produit de convolution précédent se réduit à:
(7.487)
L'intégrant vaut par définition 0 sauf lorsque par construction où il
vaut alors 1.
Intéressons-nous alors aux bornes de l'intégrale dans ce dernier
cas qui est bien évidemment le seul qui est intéressant...
Faisons d'abord un changement de variables en posant:
(7.488)
d'où:
(7.489)
L'intégrale s'écrit alors dans cet intervalle après
ce changement de variable:
(7.490)
En se rappelant comme vu au début que ,
alors nous avons immédiatement si et que
l'intégrale est nulle.
Nous allons considérer deux cas pour cet intervalle car la convolution
de ces deux fonctions rectangulaires peut se distinguer selon la
situation où dans un premier temps elles se croisent (s'emboîtent),
c'est-à-dire où ,
et ensuite s'éloignent l'une de l'autre, c'est-à-dire .
- Dans le premier cas (emboîtement) où :
(7.491)
où nous avons changé la borne inférieure à 0 car de toute façon est
nulle pour toute valeur négative (et lorsque , est
justement négatif ou nul!).
- Dans le deuxième cas (déboîtement) où :
(7.492)
où nous avons changé la borne supérieure à a car de toute
façon est
nulle pour toute valeur supérieure (et lorsque , z est
justement plus grand que a).
Donc au final, nous avons:
(7.493)
C.Q.F.D.
Il s'agit d'un cas particulier, volontairement simplifié, de
la loi triangulaire que nous allons voir de suite.
Ce résultat (qui peut sembler contre intuitif) se vérifie
en quelques secondes avec un tableur comme Microsoft Excel
11.8346 en utilisant la
fonction ALEA.ENTRE.BORNES( ) et la fonction FREQUENCE( ) dans
la version française.
DISTRIBUTION TRIANGULAIRE
Soient .
Nous définissons la "distribution
triangulaire" (ou "loi
triangulaire") par construction
basée sur les deux fonctions de distribution suivantes:
(7.494)
où a est souvent assimilée à la
valeur optimiste, c la valeur attendue (le mode) et b la
valeur pessimiste.
C'est aussi la seule manière d'écrire cette fonction de
distribution si le lecteur garde à l'esprit que le triangle
de base c-a doit avoir une hauteur h valant 2/(c-a)
telle que sa surface totale soit égale à l'unité (nous
allons de suite le montrer).
Voici un exemple de tracé de la fonction de distribution
et répartition
pour la fonction triangulaire de paramètres (a, c, b)
= (0, 3, 5):

Figure: 7.26 - Loi triangulaire (fonction de distribution et de répartition)
La pente de la première
droite (croissante de gauche) est donc bien évidemment:
(7.495)
et
la pente de la deuxième droite (décroissante à droite):
(7.496)
Cette fonction est
une fonction de distribution si elle vérifie:
(7.497)
Il s'agit dans ce cas, simplement de
l'aire du triangle qui rappelons-le est simplement la base multipliée
par la hauteur le tout divisé par 2 (cf.
chapitre sur les Formes Géométriques):
=
1
(7.498)
Remarque: Cette distribution est beaucoup utilisée
en gestion de projet dans le cadre de l'estimation des durées
des tâches ou encore en simulations industrielles. La valeur a correspondant à la
valeur optimiste, la valeur c à la valeur attendue
(mode) et la valeur b à la valeur pessimiste. Le
meilleur exemple d'application étant à nouveau les
logiciels CrystalBall ou @Risk qui s'intègrent dans Microsoft
Project.
La distribution triangulaire
a par ailleurs une espérance (moyenne):
(7.499)
et pour variance:
(7.500)
Nous pouvons remplacer par
l'expression obtenue précédemment et simplifier
(c'est de l'algèbre élémentaire
pénible...):
(7.501)
Nous pouvons montrer que la somme de deux variables
aléatoires indépendantes
chacune de loi uniforme sur [a,b] (donc indépendantes
et identiquement distribuées) suit une loi triangulaire sur
[2a,2b]
mais si elles n'ont pas les mêmes bornes, alors leur somme
donne un truc qui n'a pas de nom à ma connaissance...
DISTRIBUTION DE PARETO
La "distribution
de Pareto"
(ou "loi
de Pareto"), appelée aussi "loi
de puissance" ou encore "loi
scalante" est
la formalisation du principe des 80-20. Cet outil d'aide à la
décision
détermine
les facteurs (environ 20%) cruciaux qui influencent la plus grande
partie (80%) de
l'objectif.
Remarque: Cette loi est un outil fondamental
et basique en gestion de la qualité (cf.
chapitre de Génie Industriel et Techniques de Gestion).
Elle est aussi utilisée
en réassurance.
La théorie
des files d'attente s'est intéressée à cette
distribution, lorsque des recherches des années 1990 ont
montré que
cette loi régissait
aussi nombre de grandeurs observées dans le trafic
Internet (et plus généralement sur tous les réseaux
de données à grande
vitesse).
Une variable aléatoire est
dite par définition suivre une loi de Pareto si sa fonction de
répartition est donnée par:
(7.502)
avec x qui doit être supérieur ou égal à xm.
La
fonction de densité (fonction de distribution) de
Pareto est alors:
(7.503)
avec et (donc ).
La distribution de Pareto
est donc définie par deux paramètres, xm et k (nommé "index
de Pareto"). Cette une loi dite aussi à "invariance
d'échelle" ou "loi
fractale", terme définissant
la propriété suivante:
(7.504)
La loi de Pareto est par ailleurs bien une fonction de distribution
puisque étant connue sa fonction de répartition:
(7.505)
L'espérance (moyenne) est
donnée
par:
(7.506)
si .
Si ,
l'espérance n'existe pas.
Pour calculer
la variance, en utilisant la relation de Huyghens:
(7.507)
nous avons:
(7.508)
si .
Si , n'existe
pas.
Donc si :
(7.509)
Si ,
la variance n'existe pas.
Voici un exemple de tracé de la fonction de distribution
et répartition
pour la fonction de Pareto de paramètre :
 
Figure: 7.27 - Loi de Pareto (fonction de distribution et de répartition)
Remarque: Il
faut noter que lorsque  la
distribution s'approche de  où  est
la fonction Delta de Dirac.
Il existe une autre manière importante de déduire
la famille des lois de Pareto qui permet de comprendre
bien des choses concernant d'autres lois et qui est souvent présentée
de la façon
suivante:
Notons le
seuil au-delà duquel nous calculons l'espérance de la quantité examinée,
et E(Y) l'espérance au-delà de ce seuil tel
qu'il soit proportionnel (linéairement dépendant) au seuil choisi:
(7.510)
Cette relation fonctionnelle exprime l'idée que la moyenne conditionnelle
au-delà du seuil est
un multiple de ce seuil à une constante près, c'est-à-dire une
fonction linéaire de ce seuil.
Ainsi, en gestion de projets par exemple, nous pourrions dire
qu'une fois une certain seuil de durée dépassé, la durée espérée
est un multiple de ce même seuil à une constante près.
Si une relation linéaire de ce type existe et est bien vérifiée,
nous parlons alors de distribution de probabilité sous la forme
d'une loi de Pareto généralisée.
Considérons l'espérance mathématique de la fonction conditionnelle
bayésienne donnée par (cf. chapitre de Probabilités):
(7.511)
où la notation à gauche est un peu raccourcie mais le lecteur
comprendra implicitement qu'il s'agit d'un espérance conditionnelle.
Si nous notons la
fonction de répartition de ,
nous avons alors par définition:
(7.512)
Dès lors:
(7.513)
et si nous définissons:
(7.514)
que nous pouvons assimiler à la "queue de la distribution".
Il vient:
(7.515)
et donc nous cherchons le cas très particulier où:
(7.516)
c'est-à-dire:
(7.517)
En dérivant par rapport à x, nous trouvons:
(7.518)
La dérivée de l'intégrale définie ci-dessus sera la dérivée d'une
constante (valorisation de l'intégrale en )
moins la dérivée de l'intégrale de l'expression analytique en x.
Nous avons donc:
(7.519)
Soit:
(7.520)
et comme:
(7.521)
Il vient:
(7.522)
Après simplification et réarrangement nous obtenons:
(7.523)
qui est donc une équation différentielle en .
Sa résolution fournit toutes les formes de lois de Pareto recherchées,
selon les valeurs que prennent les paramètres a et b.
Pour résoudre cette équation différentielle, considérons le cas
particulier où .
Nous avons alors:
(7.524)
En posant:
(7.525)
Nous avons alors:
(7.526)
et donc:
(7.527)
Il vient:
(7.528)
et donc:
(7.529)
Nous avons:
(7.530)
Il vient alors pour la fonction de répartition:
(7.531)
Si nous cherchons la fonction de distribution, nous dérivons
par x pour obtenir:
(7.532)
Il s'agit de la loi de Pareto que nous avons utilisée depuis
le début et nommée "distribution de
Pareto de type I" (nous ne montrerons pas sur ce site
Internet celles de type II).
Une chose intéressante à observer au passage est le cas de la
résolution de l'équation différentielle:
(7.533)
lorsque .
L'équation différentielle se réduit alors à:
(7.534)
Soit:
(7.535)
Après intégration:
(7.536)
et donc:
(7.537)
Si nous faisons un petit changement de notation:
(7.538)
et que nous écrivons la fonction de répartition:
(7.539)
et en dérivant nous obtenons la fonction de distribution de la
loi exponentielle:
(7.540)
Donc la loi exponentielle a une espérance conditionnelle seuil
qui est égale à:
(7.541)
Donc l'espérance conditionnelle seuil est égale à elle-même augmenté de
l'écart-type de la distribution.
DISTRIBUTION EXPONENTIELLE
Nous définissons la "distribution
exponentielle" (ou "loi
exponentielle")
par la relation de fonction de distribution suivante:
(7.542)
avec qui
comme nous allons de suite le montrer n'est au fait que l'inverse
de la moyenne et où x est une variable aléatoire
sans mémoire.
Au fait la loi exponentielle découle naturellement
de développements très simples (voir celui dans le
chapitre de Physique Nucléaire par exemple) sous des hypothèses
qui imposent une constance dans le vieillissement d'un phénomène.
Dans le chapitre des Techniques de Gestion, nous avons aussi démontré
en détails dans la partie concernant la théorie des
files d'attentes, que cette loi était sans mémoire.
C'est-à-dire que la probabilité cumulée
qu'un phénomène se produise entre les temps t et t + s, s'il
ne s'est pas produit avant, est la même que la probabilité cumulée qu'il
se produise entre les temps 0 et s.
Remarques:
R1. Cette distribution se retrouve fréquemment
en physique nucléaire (voir chapitre du même nom)
ou encore en physique quantique (voir aussi chapitre du même
nom) ainsi qu'en fiabilité (cf.
chapitre de Génie Industriel) ou dans la théorie
des files d'attentes (cf. chapitre de Techniques
de Gestion).
R2. Nous pouvons obtenir cette loi dans la version française
de Microsoft Excel 11.8346 avec la fonction LOI.EXPONENTIELLE( ).
Il s'agit par ailleurs bien
d'une
fonction de distribution car elle vérifie:
(7.543)
La distribution exponentielle
a pour espérance (moyenne) en utilisant l'intégration
par parties:
(7.544)
et pour variance en utilisant à nouveau la relation de Huyghens:
(7.545)
il ne nous reste plus qu'à calculer:
(7.546)
Un changement de variable
conduit à:
(7.547)
Une double intégration
par parties donne:
(7.548)
D'où:
(7.549)
Il vient dès lors:
(7.550)
Donc l'écart-type (racine carrée de
la variance pour rappel) et l'espérance ont exactement la même
expression!
Voici un exemple de tracé de la fonction de distribution
et répartition
pour la fonction exponentielle de paramètre :
 
Figure: 7.28 - Loi exponentielle (fonction de distribution et de répartition)
Déterminons maintenant la fonction de répartition de la loi exponentielle:
(7.551)
Remarque: Nous verrons plus loin que la fonction de distribution
exponentielle n'est qu'un cas particulier d'une distribution plus
générale
qui est la distribution du Khi-deux, cette dernière aussi n'étant
qu'un cas particulier d'une distribution encore plus générale
qui est la distribution Gamma. Il s'agit d'une propriété très importante
utilisée dans le "test de Poisson" pour les événements rares (voir
plus loin aussi).
DISTRIBUTION DE CAUCHY
Soient X, Y deux variables
aléatoires indépendantes suivant des lois Normales
centrées réduites (variance unité et espérance
nulle). La fonction de densité est
donc donnée pour chacune des variables par:
(7.552)
La variable aléatoire:
(7.553)
(la valeur absolue interviendra dans une intégrale lors
d'un changement variable) suit une allure caractéristique
appelée "distribution
de Cauchy" (ou "loi de Cauchy")
ou encore "loi de Lorentz".
Déterminons sa fonction de densité f. Pour
cela, rappelons que f est déterminée
par la relation (générale):
(7.554)
Donc (application du calcul
intégral élémentaire):
(7.555)
dans le cas où f
est continue.
Etant donné que X et Y sont indépendants,
la fonction de densité du vecteur aléatoire est
donnée
par un des axiomes des probabilités (cf.
chapitre de Probabilités):
(7.556)
Donc:
(7.557)
où donc .
Cette dernière intégrale
devient:
(7.558)
Faisons le changement de
variable
dans l'intégrale intérieure. Nous obtenons:
(7.559)
Donc:
(7.560)
C'est maintenant que la valeur
absolue va nous être utile pour écrire:
(7.561)
Pour la première intégrale
nous avons:
(7.562)
Il ne reste donc plus que
la seconde intégrale et en faisant le changement de variable
,
nous obtenons:
(7.563)
Ce que nous noterons par
la suite (afin de respecter les notations adoptées jusqu'à
présent):
(7.564)
et qui n'est
d'autre que la distribution
de Cauchy.
Il s'agit par ailleurs bien
d'une fonction de distribution car elle vérifie (cf.
chapitre de Calcul Différentiel et Intégral):
(7.565)
Voici un exemple de tracé de la fonction de distribution
de Cauchy:

Figure: 7.29 - Loi de Cauchy (fonction de distribution)
La distribution de Cauchy a pour
espérance (moyenne):
(7.566)
Attention!!! Les calculs précédents ne donnent pas
zéro en réalité fait car la soustraction d'infinis n'est
non pas nulle mais indéterminée! La loi de Cauchy
n'admet donc pas d'espérance rigoureusement parlant!
Ainsi, même si nous pouvons bricoler une variance:
(7.567)
celle-ci est absurde et n'existe rigoureusement parlant pas puisque
l'espérance n'existe pas...!
distribution
BÊTA
Rappelons d'abord
que la fonction Gamma d'Euler est définie par la relation
(cf. chapitre de Calcul Différentiel
Et Intégral):
(7.568)
Nous
avons démontré (cf. chapitre
de Calcul Différentiel
Et Intégral) qu'une propriété non triviale de
cette fonction est que:
(7.569)
Posons maintenant:
(7.570)
où:
(7.571)
En
faisant le changement de variables:
(7.572)
nous
obtenons:
(7.573)
Pour
l'intégrale interne nous utilisons maintenant la substitution et
nous trouvons alors:
(7.574)
La
fonction B qui
apparaît dans l'expression ci-dessus est appelée "fonction
bêta" et nous avons donc:
(7.575)
Maintenant
que nous avons défini ce qu'était la fonction
bêta, considérons les
deux paramètres et
considérons la relation particulière ci-dessous
comme étant
la "distribution bêta"
ou "loi
bêta" (il existe plusieurs formulations de la
loi bêta dont une très importante qui est étudiée
en détails dans
le chapitre de Techniques de Gestion):
(7.576)
où:
(7.577)
Nous
vérifions d'abord que que est
bien une fonction de distribution (sans trop aller dans les
détails...):
(7.578)
Maintenant, calculons son espérance
(moyenne):
(7.579) en utilisant la relation:
(7.580)
et
sa variance:
(7.581)
En sachant que et
que nous
trouvons:
(7.582)
et
donc:
(7.583)
Exemples de tracés de
la fonction de distribution (densité) pour en
rouge, en
vert, en
noir, en
bleu, en
magenta, en
cyan, en
gris, en
turquoise, en
jaune, en
couleur or:

Figure: 7.30 - Loi bêta (fonction de distribution)
et tracé de la fonction de distribution et répartition
de la loi bêta de paramètres :
 
Figure: 7.31 - Loi bêta (fonction de distribution et de répartition)
Le fait que la loi beta soit une des rares fonction
de distribution dont le support soit compris entre ]0,1[ explique
son usage courant dans les statistiques bayésiennes en tant que
loi a priori de la distribution d'une proportion!
DISTRIBUTION GAMMA
La
fonction Gamma d'Euler étant connue, considérons
deux paramètres et
définissons la "distribution
Gamma" (ou "loi Gamma")
comme étant
donnée par la relation (fonction de densité):
(7.584)
En
faisant le changement de variables nous
obtenons:
(7.585)
et pouvons alors écrire
la relation sous une forme plus classique que nous trouvons fréquemment
dans la littérature spécialisée:
(7.586)
et c'est sous cette forme que nous retrouvons cette fonction
de distribution dans la version française de Microsoft Excel 11.8346
sous le nom LOI.GAMMA( )
et pour sa réciproque
par LOI.GAMMA.INVERSE( ).
Voyons maintenant une propriété simple de la loi Gamma qui nous
sera en partie utile pour l'étude du test statistique de Welch.
Rappelons d'abord que nous avons démontré plus haut que:
(7.587)
Posons ,
nous avons alors immédiatement:
(7.588)
Donc la multiplication par une constante d'une
variable aléatoire qui suit une loi Gamma n'a que pour effet de diviser
le paramètre par
cette même constante. Raisons pour laquelle est
appelé "paramètre d'échelle".
Si ,
la loi Gamma au dénominateur devient (cf.
chapitre de Calcul Différentiel Et Intégral) la
factorielle .
La distribution Gamma peut alors s'écrire:
(7.589)
Cette forme particulière la
fonction de distribution Gamma s'appelle alors la "fonction
d'Erlang" que nous retrouvons naturellement dans la
théorie des files d'attentes et qui est donc très
importante dans la pratique!
Remarque: Si  alors  et  et
nous retombons sur la loi exponentielle.
Ensuite,
nous vérifions avec un raisonnement similaire en tout point
à celui de la fonction bêta que est
une fonction de distribution:
(7.590)
Exemples tracés de la fonction de distribution pour en
rouge, en
vert, en
noir, en
bleu, en
magenta:

Figure: 7.32 - Loi Gamma (fonction de distribution)
et tracé de la fonction de distribution et répartition
pour la fonction Gamma de paramètres :
 
Figure: 7.33 - Loi Gamma (fonction de distribution et de répartition)
La
distribution Gamma a par ailleurs pour espérance (moyenne):
(7.591)
et
pour variance:
(7.592)
Démontrons une propriété de la distribution
Gamma qui nous servira
à établir plus tard dans ce chapitre, lors de notre étude
de l'analyse de la variance et des intervalles de confiance sur
des petits échantillons, une autre propriété extrêmement
importante de la loi du Khi-deux.
Comme nous le savons, la fonction de densité d'une variable
aléatoire
suivant une distribution Gamma de paramètres est:
(7.593)
avec (cf. chapitre de Calcul Différentiel
Et Intégral) la fonction Gamma d'Euler:
(7.594)
Par ailleurs, quand une variable aléatoire suit une distribution
Gamma nous la notons souvent sous la forme suivante :
(7.595)
Soient X, Y deux variables indépendantes.
Montrons que si et
,
donc avec le même paramètre d'échelle, alors:
(7.596)
Notons f la fonction de densité du couple X, Y,
la
fonction de densité de X et la
fonction de densité de Y. Vu que X, Y
sont indépendantes, nous avons:
(7.597)
pour tout .
Soit .
La fonction de répartition de Z est alors:
(7.598)
où .
Remarque: Nous appelons un tel calcul une "convolution"
et les statisticiens ont souvent à manipuler de telles entités
ayant à travailler sur de nombreuses variables aléatoires
qu'il faut sommer ou même multiplier.
En simplifiant:
(7.599)
Nous effectuons le changement de variable suivant:
(7.600)
Le jacobien est alors (cf. chapitre de
Calcul Différentiel Et Intégral):
(7.601)
Donc avec la nouvelle borne d'intégration nous
avons:
(7.602)
Si nous notons g la fonction de densité de Z nous
avons:
(7.603)
Par suite:
(7.604)
et
étant
nulles lorsque leur argument est négatif, nous pouvons changer
les bornes d'intégration:
(7.605)
pour .
Calculons g:
(7.606)
Après le changement de variable nous
obtenons:
(7.607)
où B est la fonction bêta que nous avons vue plus haut
dans notre
étude de la fonction de distribution bêta. Or nous avons
aussi démontré
la relation:
(7.608)
Donc:
(7.609)
Soit plus explicitement:
(7.610)
Ce qui finalement nous donne:
(7.611)
Ce qui montre que bien que si deux variables aléatoires
suivent une distribution Gamma alors leur somme aussi telle que:
(7.612)
Donc la distribution Gamma est stable par addition de même
que le sont toutes les lois qui découlent de la loi Gamma
et que nous allons aborder ci-après.
DISTRIBUTION DE Khi-deux (OU DE PEARSON)
La
"distribution du Khi-deux" (appelée
aussi "loi
du Khi-deux" ou encore "loi
de Pearson") a une place très importante
dans la pratique industrielle pour certains tests d'hypothèses
courants (voir plus beaucoup plus loin...) et n'est par définition
qu'un cas particulier de la distribution Gamma
dans
le cas où et
,
avec k
entier positif:
(7.613)
À comparer avec la loi Gamma vue juste avant:

Cette relation qui relie la distribution du Khi-deux à la
distribution Gamma est importante dans la version française
de Microsoft Excel 11.8346 car la fonction LOI.KHIDEUX(
) donne le seuil de confiance et non la fonction de distribution.
Il faut alors utiliser la fonction LOI.GAMMA( ) avec les paramètres
donnés ci-dessus (à part qu'il faut prendre l'inverse
de 1/2, soit 2 comme paramètre) pour avoir la fonction de
distribution et de répartition.
Le lecteur qui voudra vérifier que la loi du Khi-2 est
seulement un cas particulier de la loi Gamma, pourra écrire
dans la version française de Microsoft Excel 14.0.6123:
=LOI.KHIDEUX.N(2*x;2*k;VRAI)
=LOI.GAMMA.N(x;k;1;VRAI)
Tous
les calculs faits auparavant s'appliquent et nous avons alors
immédiatement:
(7.614)
Exemples de tracés de la fonction de distribution pour
en rouge,
en vert,
en noir, en
bleu:

Figure: 7.34 - Loi du Khi-deux (fonctions de distribution)
et tracé de la fonction de distribution et respectivement
de
répartition pour la loi du Khi-deux pour :
 
Figure: 7.35 - Loi du Khi-deux (fonction de distribution et de répartition)
Dans la littérature, il est de
tradition de noter:
ou
(7.615)
pour indiquer
que la distribution de la variable aléatoire X est la
loi du Khi-deux. Par ailleurs il est courant de nommer le paramètre k "degré de
liberté" et de l'abréger "ddl".
La fonction Khi-deux découle
donc de la loi Gamma et par ailleurs en prenant nous
retrouvons aussi la loi exponentielle (voir plus haut) pour :
(7.616)
Par ailleurs, puisque (cf.
chapitre de Calcul Différentiel Et Intégral):
(7.617)
la
loi du Khi-deux avec k égal à l'unité peut s'écrire
sous la forme:
(7.618)
Enfin, terminons avec une propriété assez
importante dans les tests statistiques que nous étudierons
un peu plus loin et particulièrement dans les intervalles
de confiance des événements
rares. Effectivement, le lecteur pourra vérifier dans un
tableur comme Microsoft Excel 14.0.6123 (version française),
que nous avons:
(7.619)
Il nous faut donc démontrer cette relation entre
loi du khi-2 et loi de Poisson. Voyons cela en partant de la
loi Gamma:
(7.620)
Si nous posons et
nous
avons alors la loi du khi-2 à k degré de
libertés:
(7.621)
Maintenant, rappelons que nous avons vu dans le chapitre
de Suites Et Séries, la série de Taylor (Maclaurin)
avec reste intégral à l'ordre n - 1 autour de
0 jusqu'à suivante:
(7.622)
Nous multiplions par :
(7.623)
Et donc:
(7.624)
Or, concentrons-nous sur le terme:
(7.625)
et faisons un premier changement de variable:
(7.626)
et un second changement de variable (attention! le
k dans le changement de variable n'est pas le même
que celui de la somme de la loi de Poisson...):
(7.627)
Or, nous avons démontré dans le chapitre
de Calcul Différentiel Et Intégral que si x est un
entier strictement positif:
(7.628)
Il vient alors:
(7.629)
Nous avons finalement:
(7.630)
où nous retrouvons donc bien la fonction de
distribution du khi-2 sous l'intégrale!
Donc au final:
(7.631)
D'où la relation donnée plus haut pour
les tableurs en se rappelant bien que nous avons posé:
(7.632)
DISTRIBUTION
DE STUDENT
La "fonction
de Student"
(ou "loi de Student") de paramètre
k est définie
par la relation:
(7.633)
avec k étant le degré de liberté de
la loi du Khi-deux sous-jacente à la construction de la
fonction de Student comme nous allons le voir.
Indiquons qu'elle peut aussi être obtenue dans la version
français de Microsoft Excel 11.8346 à l'aide
des fonctions LOI.STUDENT( ) et sa réciproque par LOI.STUDENT.INVERSE( ).
Il s'agit bien d'une fonction
de distribution car elle vérifie bien:
(7.634)
Voyons la démonstration la plus simple pour justifier la provenance
de la loi de Student et qui nous sera en même temps très utile
dans l'inférence statistique et l'analyse de la variance plus loin.
Pour cette démonstration, rappelons que:
R1. Si X, Y sont deux variables aléatoires indépendantes
de densités respectives ,
la loi du couple (X, Y) possède une densité f vérifiant
(axiome des probabilités!):
(7.635)
R2. La loi N(0,1) est donnée par (voir plus haut):
(7.636)
R3. La loi est
donnée par (voir précédemment):
(7.637)
pour et .
R4. La fonction Gamma d'Euler est
définie pour tout par
(cf. chapitre de Calcul Différentiel
et Intégral):
(7.638)
et vérifie (cf. chapitre de Calcul Différentiel et Intégral):
(7.639)
pour .
Ces rappels étant faits, considérons maintenant X une
variable aléatoire suivant la loi N(0,1) et Y une
variable aléatoire suivant la loi .
Nous supposons X et Y indépendantes et nous considérons
la variable aléatoire (c'est à l'origine l'étude historique de
la loi de Student dans le cadre de l'inférence statistique qui
a amené à poser cette variable dont nous justifierons l'origine
plus loin):
(7.640)
Nous allons montrer que T suit une loi de Student de paramètre n.
Démonstration:
Notons F et f les fonctions de répartition
et de densité de T et les
fonctions de densité de X, Y et (X,Y) respectivement.
Nous avons alors pour tout :
(7.641)
où:
(7.642)
la valeur imposée positive et non nulle de y étant
due au fait qu'elle est sous une racine et en plus au dénominateur.
Ainsi:
(7.643)
où comme X suit une loi N(0,1):
(7.644)
est la fonction de répartition de la loi Normale centrée réduite.
Nous obtenons alors la fonction de densité de T en dérivant F:
(7.645)
car (la dérivée d'une fonction est égale à sa dérivée multipliée
par sa dérivée intérieure):
(7.646)
Donc:
(7.647)
En faisant le changement de variable:
(7.648)
nous obtenons:
(7.649)
ce qui est bien la loi de Student de paramètre n.
C.Q.F.D.
Voyons maintenant quelle est l'espérance de la loi de Student:
(7.650)
Nous avons:
(7.651)
Mais existe
si et seulement si .
En effet pour :
(7.652)
et:
(7.653)
Tandis que pour nous
avons:
(7.654)
Ainsi pour ,
l'espérance n'existe pas.
Donc pour :
(7.655)
Voyons maintenant la valeur de la variance. Nous avons donc:
(7.656)
Discutons de l'existence de .
Nous avons trivialement:
(7.657)
X suit une loi Normale centrée réduite donc:
(7.658)
Pour ce qui est de nous
avons:
(7.659)
où nous avons fait le changement de variable .
Mais l'intégrale définissant converge
seulement si .
Donc existe
si et seulement si et
vaut alors selon les propriétés de la fonction Gamma
d'Euler démontrées
dans le chapitre de Calcul Différentiel Et Intégral:
(7.660)
Ainsi pour :
(7.661)
Il est par ailleurs important de remarquer que
cette loi est symétrique par rapport à 0!
Exemple de tracé de la fonction de distribution et répartition
pour la fonction de Student de paramètre :
 
Figure: 7.36 - Loi de Student (fonction de distribution et de répartition)
DISTRIBUTION DE FISHER
La "fonction de Fisher" (ou "loi
de Fisher-Snedecor")
de paramètres k et l est définie par la relation:
(7.662)
si .
Les paramètres k et l sont des entiers positifs
et correspondent aux degrés de liberté des deux lois
du Khi-deux sous-jacentes. Cette distribution est souvent notée ou
F(k,l) et peut être obtenue dans
la version française de Microsoft Excel 11.8346 par
la fonction LOI.F( ).
Il s'agit bien d'une fonction de distribution car elle vérifie également
(reste à démontrer directement mais bon comme nous allons le voir
elle est le produit de deux fonctions de distribution donc indirectement...):
(7.663)
Voyons la démonstration la plus simple pour justifier la provenance
de la loi de Fisher et qui nous sera en même temps très utile dans
l'inférence statistique et l'analyse de la variance plus loin.
Pour cette démonstration, rappelons que:
R1. La loi est
donnée par (voir plus haut):
(7.664)
pour et .
R2. La fonction est
définie pour tout par
(cf. chapitre de Calcul Différentiel et Intégral):
(7.665)
Soient X, Y deux variables aléatoires indépendantes
suivant respectivement les lois et .
Nous considérons la variable aléatoire:
(7.666)
Nous allons donc montrer que la loi de T est la loi
de Fisher-Snedecor de paramètres n, m.
Notons pour cela F et f les fonctions de
répartition et de densité de T et , f les
fonctions de densité de X, Y et (X,Y) respectivement. Nous
avons pour tout :
(7.667)
où:
(7.668)
où les valeurs positives imposées proviennent à l'origine
d'une loi du Khi-deux pour x et y.
Ainsi:
(7.669)
Nous obtenons la fonction de densité de T en dérivant F.
D'abord la dérivée intérieure:
(7.670)
Ensuite en explicitant puisque:
et
(7.671)
nous avons alors:
(7.672)
En faisant le changement de variable:
(7.673)
nous obtenons:
(7.674)
C.Q.F.D.
DISTRIBUTION DE BENFORD
Cette distribution aurait été découverte
une première fois en 1881 par Simon Newcomb, un astronome
américain, après qu'il se fut aperçu de l'usure
(et donc de l'utilisation) préférentielle des premières
pages des tables de logarithmes (alors compilées dans des
ouvrages). Frank Benford, qui aux alentours de 1938 remarqua à son
tour cette usure inégale, crut être le premier à formuler
cette loi qui porte indûment son nom aujourd'hui et arriva
aux mêmes résultats après avoir répertorié des
dizaines de milliers de données (longueurs de fleuves, cours
de la bourse, etc.).
Seule
explication possible: nous avons plus souvent besoin d'extraire
le logarithme de chiffres commençant par 1 que de chiffres commençant
par 9, ce qui implique que les premiers sont "plus nombreux"
que les seconds.
Bien
que cette idée lui paraisse tout à fait invraisemblable,
Benford entreprend de vérifier son hypothèse. Rien
de plus simple: il se procure des tables de valeurs numériques
et calcule le pourcentage d'apparition du chiffre le plus à gauche
(première
décimale). Les résultats
qu'il obtient confirment son intuition:
Chiffre
initial |
Probabilité
d'apparition |
1 |
30.1
% |
2 |
17.6
% |
3 |
12.5
% |
4 |
9.7
% |
5 |
7.9
% |
6 |
6.7
% |
7 |
5.8
% |
8 |
5.1
% |
9 |
4.6
% |
Tableau: 7.11
- Probabilité d'apparition d'un chiffre selon la loi de Benford
À
partir de ces données, Benford trouve expérimentalement
que la probabilité cumulée
qu'un nombre commence par le chiffre n (excepté
0) est (nous allons le démontrer plus loin) donnée
par la relation:
(7.675)
appelée "fonction de Benford" (ou "loi
de Benford").
Voici un tracé
de la fonction précédente:

Figure: 7.37 - Tracé de la fonction de Benford (fonction de répartition)
Il
convient de préciser que cette loi ne s'applique qu'à des listes
de valeurs "naturelles", c'est-à-dire à des chiffres ayant
une signification physique. Elle ne fonctionne évidemment pas sur
une liste de chiffres tirés au hasard.
La
loi de Benford a été testée sur toutes sortes
de tables:
longueur des fleuves du globe, superficie des pays, résultat
des élections,
liste des prix de l'épicerie du coin... Elle se vérifie
presque à tous les coups.
La distribution serait en plus indépendante de l'unité choisie.
Si l'on prend par exemple la liste des prix d'un supermarché,
elle fonctionne aussi bien avec les valeurs exprimées en
Francs qu'avec les mêmes prix
convertis en Euros.
Cet
étrange phénomène est resté peu étudié et inexpliqué jusqu'à une
époque assez récente. Puis une démonstration générale en a été donnée
en 1996, qui fait appel au théorème de la limite centrale.
Aussi
surprenant que cela puisse paraître, cette loi a trouvé une
application: le fisc l'utiliserait aux Etats-Unis pour détecter
les fausses déclarations.
Le principe est basé sur la restriction vue plus haut: la
loi de Benford ne s'applique que sur des valeurs ayant une signification
physique.
S'il
existe une distribution de probabilité universelle P(n)
sur de tels nombres, ils doivent être invariants sous un
changement d'échelle tel que:
(7.676)
Si:
(7.677)
alors:
(7.678)
et
la normalisation de la distribution donne:
(7.679)
Si
nous dérivons par
rapport à k nous obtenons:
(7.680)
en
posant k = 1 nous
avons:
(7.681)
Cette équation différentielle a pour solution:
(7.682)
Cette
fonction, n'est pas en premier lieu à proprement parler une
fonction de distribution de probabilité (elle diverge) et
deuxièmement, les
lois de la physique et humaines imposent des limites.
Nous
devons donc comparer cette distribution
par rapport à une référence arbitraire. Ainsi,
si le nombre décimal
étudié contient plusieurs puissances de 10 (10 au
total: 0,1,2,3,4,5,6,7,9) la probabilité que le premier
chiffre non nul (décimal) soit D est
alors donnée par:
(7.683)
Les
bornes de l'intégrale sont de 1 à 10 puisque la valeur nulle est
interdite.
L'intégrale
du dénominateur donne:
(7.684)
L'intégrale
du numérateur donne:
(7.685)
Ce
qui nous donne finalement:
(7.686)
De
par les propriétés des logarithmes (cf.
chapitre d'Analyse Fonctionnelle) nous avons:
(7.687)
Cependant,
la loi de Benford ne s'applique pas uniquement aux données invariantes
par changement d'échelle mais également à des nombres
provenant de sources quelconques. Expliquer ce cas implique une
investigation
plus rigoureuse en utilisant le théorème de la limite centrale.
Cette démonstration a été effectuée seulement en 1996 par T. Hill
par une approche utilisant la distribution des distributions.
Pour résumer un partie importante de tout ce que nous avons
vu jusqu'ici, l'illustration ci-dessous est très utile car
elle résume
les relations de 76 distributions univariées courantes
(57 continues et 19 discrètes):

Figure: 7.38 - Relations entre les distributions (Source: AMS Lawrence M. Leemis and
Jacquelyn
T. McQueston)
|
|
23 0 |
Commentaires:
Warning: mysql_connect() [function.mysql-connect]: [2002] Connection refused (trying to connect via tcp://crawl427.us.archive.org:3306) in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 46
Warning: mysql_connect() [function.mysql-connect]: Connection refused in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 46
Warning: mysql_select_db() expects parameter 2 to be resource, boolean given in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 47
Warning: mysql_query() expects parameter 2 to be resource, boolean given in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 50
Warning: mysql_fetch_array() expects parameter 1 to be resource, null given in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 51
[] 
Warning: mysql_close() expects parameter 1 to be resource, boolean given in /home/www/f9f6c3f0bb515fb7fa59d2c99a31acd3/web/htmlfr/php/commentaires/config/fonctions.lib.php on line 58
|
|