
THÉORIE
DE LA DÉMONSTRATION |
NOMBRES | OPÉRATEURS
ARITHMÉTIQUES
THÉORIE DES NOMBRES | THÉORIE
DES ENSEMBLES | PROBABILITÉS
| STATISTIQUES
Dernière mise à jour de ce chapitre:
2017-01-31 10:12:29 |
{oUUID 1.709}
Version: 3.3 Révision 23 | Avancement: ~90%
vues
depuis le 2012-01-01:
9'354
LISTE DES SUJETS TRAITÉS SUR CETTE PAGE
Le calcul des probabilités s'occupe des
phénomènes
aléatoires (dits plus esthétiquement: "processus
stochastiques" lorsqu'ils
sont dépendants du temps), c'est-à-dire de phénomènes
qui ne mènent
pas toujours à la
même
issue et qui peuvent être étudiés grâce
aux nombres et à leurs
conséquences et apparitions. Néanmoins,
même
si ces phénomènes ont des issues variées,
dépendant du hasard,
nous observons cependant une certaine régularité statistique.
Définitions: Il existe plusieurs manières de définir
une probabilité.
Principalement, nous parlons de:
D1. "Probabilité expérimentale ou inductive" qui
est la probabilité déduite de toute la population
concernée.
D2. "Probabilité théorique ou déductive" qui
est la probabilité connue grâce à l'étude
du phénomène sous-jacent sans expérimentation.
Il s'agit donc d'une connaissance "a priori" par
opposition à la définition précédente
qui faisait plutôt référence à une notion
de probabilité "à posteriori".
Comme il n'est pas toujours possible de déterminer des
probabilités a priori, nous sommes souvent amenés à réaliser
des expériences. Il faut donc pouvoir passer de la première à la
deuxième solution. Ce passage est supposé possible
en termes de limite (avec une population dont la taille tend vers
la taille de la population réelle).
La modélisation formelle par le calcul des probabilités
a été inventée
par A.N. Kolmogorov dans un livre paru en 1933. Cette modélisation
est faite à partir de l'espace de probabilités
(U, A, P)
que nous définirons
plus loin et que nous pouvons relier à la
théorie
de la mesure (voir chapitre du même nom). Cependant, les
probabilités ont été étudiées sur le point de vue scientifique
par Fermat et Pascal au milieu du 17ème siècle.
Remarque: Si vous avez un professeur
ou un formateur qui ose vous enseigner les statistiques et probabilités
avec des exemples basés
sur des jeux de hasard (cartes, dés, allumette, pile ou
face, etc.) débarrassez-vous en ou dénoncez-le à qui
de droit car cela signifierait qu'il n'a aucune expérience
pratique du domaine et qu'il va vous enseigner n'importe quoi et
n'importe comment (normalement
les exemples
devraient être basés sur l'industrie, l'économie
ou la R&D, bref dans des domaines utilisés tous les
jours par les entreprises mais surtout pas sur des jeux de hasard...!).
UNIVERS
DES ÉVÉNEMENTS
Définitions:
D1.
"L'univers des événements",
ou "univers des observables", U est
l'ensemble de toutes les issues (résultats) possibles, appelées
"événements élémentaires",
qui se présentent
au cours d'une épreuve
aléatoire
déterminée. L'univers peut être fini (dénombrable)
si les événements élémentaires
sont en nombre fini ou continu (non dénombrable) s'ils
sont infinis.
D2. Un "événement"
quelconque A est
un ensemble d'événements élémentaires
et constitue une partie de l'univers des possibles U.
Il est possible qu'un événement
ne soit constitué que d'un seul événement élémentaire.
Exemple:
Considérons l'univers de tous les groupes sanguins possible,
alors l'événement A "l'individu est de rhésus positif" est
représenté par:
(6.1)
alors que l'événement B "l'individu est donneur universel" est
représenté par:
(6.2)
qui constitue donc un événement élémentaire.
D3.
Soit U
un univers et A un événement, nous disons que l'événement
A "à lieu" (ou "se réalise") si lors
du déroulement de l'épreuve se présente l'issue i et
que .
Dans le cas contraire, nous disons que A "n'a pas
lieu".
D4.
Le sous-ensemble vide
de U
s'appelle "événement impossible".
En effet, si lors de l'épreuve l'issue i
se présente, nous avons toujours
et
l'événement
n'a donc jamais lieu.
Si U est fini, ou infini dénombrable,
tout sous-ensemble de U est un événement,
ce n'est plus vrai si U est non dénombrable (nous
verrons dans le chapitre de Statistiques pourquoi).
D5.
L'ensemble U
s'appelle aussi "événement certain".
En effet, si lors de l'épreuve
l'issue i
se présente, nous avons toujours
(car U
est l'univers des événements). L'événement U
a donc toujours lieu.
D6.
Soit A et B
deux sous-ensembles de U.
Nous savons que les événements et
sont
tous deux des sous-ensembles de U
donc des événements qui sont respectivement des "événements
conjoints" et des "événements disjoints".
Si deux événements A et B
sont tels que:
(6.3)
les
deux événements ne peuvent pas être réalisables pendant la même
épreuve, nous disons alors qu'ils sont des "événements
incompatibles".
Sinon, si:
(6.4)
les
deux événements peuvent être réalisables dans la même épreuve
(possibilité
de voir un chat noir au moment où on passe sous une échelle par
exemple), nous disons inversement qu'ils sont des "événements
indépendants".
AXIOMATIQUE DE KOLMOGOROV
La
probabilité d'un événement sera en quelque sorte le répondant de
la notion de fréquence d'un phénomène aléatoire, en d'autres termes,
à chaque événement nous allons attacher un nombre réel, appartenant
à l'intervalle [0,1], qui mesurera sa probabilité (chance) de réalisation.
Les propriétés des fréquences que nous pouvons mettre en évidence
lors d'épreuves diverses nous permettent de fixer les propriétés
des probabilités.
Soit U un univers. Nous disons que nous définissons une
probabilité sur les événements de U si à tout événement A
de U nous associons un nombre ou une mesure P(A),
appelé "probabilité a priori
de l'événement A" ou "probabilité marginale
de A".
A1.
Pour tout événement A:
(6.5)
Ainsi,
la probabilité de tout événement est un nombre réel compris
entre 0 et 1 inclus (c'est du bon sens humain...).
A2. La
probabilité de l'événement certain ou de l'ensemble (somme) des événements
possibles est égale à 1:
(6.6)
A3.
Si sont
deux événements incompatibles (disjoints), alors:
(6.7)
la probabilité de la réunion ("ou") de
deux événements
incompatibles (ou mutuellement exclusifs) est donc égale à la
somme de leurs probabilités
(loi d'addition). Nous parlons alors de "probabilité disjointe".
Nous comprenons mieux que le troisième axiome exige que sinon
quoi la somme de toutes les probabilités pourrait être supérieur
à l'unité (imaginez à nouveau le diagramme sagittal des deux événement
dans votre tête!).
Exemple:
Considérons que la probabilité dans
une région donnée d'avoir sur 50 ans un tremblement
de terre majeur est de 5% et que d'avoir sur la même période
une inondation majeure est 10%. Nous souhaiterions savoir qu'elle
est la probabilité qu'une centrale nucléaire rencontre
au plus un des deux événements pendant cette même
période s'ils sont bien incompatibles. Nous avons alors
la probabilité qui
est la somme des deux probabilités ce qui fait 15%...
Nous retrouverons un exemple
de ce genre de probabilité disjointe
dans le chapitre de Génie
Industriel dans la méthode AMDEC (Analyse des Modes de
Défaillance, de leurs Effets et de leurs Criticités) pour
l'analyse de pannes des systèmes à structure
complexe.
Autrement dit sous forme
plus générale si est
une suite d'événements disjoints deux à deux
( et ne
peuvent pas se produire en même
temps si )
alors:
(6.8)
Nous parlons alors de "σ-additivité" car
si nous regardons de plus près les trois axiomes ci-dessus
la mesure P forme une σ-algèbre (cf.
chapitre de Théorie de la Mesure).
A l'opposé, si les événements
ne sont pas incompatibles (ils peuvent se superposer ou autrement
dit: ils ont une probabilité jointe), nous avons alors
comme probabilité qu'au plus un des deux ait lieu:
(6.9)
Ceci signifie que la probabilité pour que l'un au plus
des événements A ou B se réalise
est égale à la
somme des probabilités pour que se réalise A ou
pour que se réalise B, moins la probabilité pour
que A et
B se réalisent simultanément (nous démontrerons
plus loin que cela est simplement équivalent à la
probabilité que les deux n'aient pas lieu en même
temps!).
Un cas typique d'utilisation de la dernière relation est l'actuariate.
Effectivement nous connaissons les probabilités de survie de deux
individus pendant une période de temps imposée et parfois nous
souhaiterions calculer qu'elle est la probabilité qu'au moins un
des deux survive survive pendant la période donnée. Dès lors nous
utilisons la relation ci-dessus (cf. chapitre
Dynamique Des Populations).
Exemple:
Considérons que la probabilité dans
une région donnée d'avoir sur 50 ans un tremblement
de terre majeur est de 5% et que d'avoir sur la même période
une inondation majeure est 10% et que ces deux événements
ne sont incompatibles... (c'est-à-dire que pendant les 50
ans, soit il y a le tremblement de terre soit l'inondation mais
pas
les deux). Nous souhaiterions savoir qu'elle est la probabilité qu'une
centrale nucléaire
rencontre tout au plus un des deux événements pendant
cette même
période. Nous avons alors la probabilité qui se calcule à
partir de la relation précédente et qui donne alors
14.5%...
Et donc s'ils étaient incompatibles
nous aurions et
nous retrouverions alors bien la probabilité disjointe:
(6.10)
Remarque: Indiquons que si la somme
venait à faire plus
de 100% c'est que de par l'axiome des probabilités les deux événements
ne sont pas incompatibles!!! Ainsi, en reprenant l'exemple d'avant
si nous avons 60% de probabilité pour le tremblement de terre et
70% de probabilité pour l'indondation alors cela veut dire qu'il
y a (60%+70%)-100%=30% de probabilités
que toutefois les deux aient lieux "en même temps" pendant la période
de 50 ans (et il y a donc une faible probabilité pour qu'ils
aient lieu "exactement" au même moment).
Une conséquence immédiate
des axiomes (A2) et (A3) est la relation entre les probabilités
d'un événement A et son complémentaire,
noté (ou
plus rarement conformément à la notation utilisée dans le chapitre
de Théorie De La Démonstration le complémentaire peut être
noté
):
(6.11)
Soit U un univers comportant un nombre fini n d'issues
possibles:
(6.12)
où les événements:
(6.13)
sont appelés "événements élémentaires".
Lorsque ces événements ont même probabilité,
nous disons qu'ils sont "équiprobables".
Dans ce cas, il est très facile de calculer leur probabilité.
En effet, ces événements étant par définition
incompatibles entre eux à ce niveau de notre discours, nous avons
en vertu de l'axiome 3 des probabilités:
(6.14)
mais puisque:
(6.15)
et que les probabilités du membre de droite sont par hypothèse équiprobables,
nous avons:
(6.16)
Définition:
Si A et B
ne sont pas incompatibles mais qu'ils sont indépendants,
nous savons que par leur compatibilité ,
alors (très
important en statistiques!):
(6.17)
la probabilité de l'intersection ("et") de deux événements
indépendants est égale au produit de leurs probabilités
(loi de multiplication). Nous parlons alors de "probabilité
conjointe" (c'est le cas le plus fréquent) ou
simplement de "probabilité jointe".
Si les deux probabilités sont définies par des lois de distributions,
nours parlons alors bien évidemment de "distribution
conjointe".
Exemple:
Considérons que la probabilité dans
une région donnée d'avoir sur 50 ans un tremblement
de terre majeur est de 5% et que d'avoir sur la même période
une inondation majeure est 10%. De plus supposons que ces 2 événements
ne soient pas incompatibles (en d'autres termes ils sont compatibles).
Nous allons nous intéresser à leur indépendance.
Ainsi, nous souhaiterions savoir qu'elle est la probabilité qu'une
centrale nucléaire rencontre les deux événements
en même temps, à quel que moment que ce soit, pendant
cette même période. Nous avons alors la probabilité qui
se calcule à partir de la relation précédente
et qui donne alors 0.05%...
Autrement dit sous forme
plus générale, les événements
sont indépendants si la probabilité de l'intersection
est le produit des probabilités:
(6.18)
Remarque: Attention donc à ne pas confondre "indépendants"
et "incompatibles"!
Donc pour résumer jusqu'ici nous avons donc:
Type |
Expression |
2 événements incompatibles (disjoints) |
|
2 événements incompatibles (non nécessairement
disjoints) |
|
2 événements non incompatibles mais indépendants |
|
Tableau: 28.1 - Cas classiques de probabilités
Grâce à la définition précédente, nous pouvons
démontrer
que la probabilité pour que soit A ou soit B ait
lieu (donc au moins un des deux mais pas les deux en même
temps), est simplement égale à... la
probabilité que
les deux n'aient pas lieu en même temps:
(6.19)
Nous pouvons aussi à l'aide de cette dernière
définition
déterminer la probabilité qu'un seul des deux événements
ait lieu:
(6.20)
Exemple:
Considérons que la probabilité dans
une région donnée d'avoir sur 50 ans un tremblement
de terre majeur est de 5% et que d'avoir sur la même période
une inondation majeure est 10%. Nous souhaiterions savoir qu'elle
est la probabilité qu'une centrale nucléaire rencontre
exactement un des deux événements pendant la même
période en considérant qu'ils ne peuvent avoir lieu
en même temps. Nous avons alors la probabilité qui
se calcule à partir de la relation précédente
et qui donne alors 14%...
Il y a un domaine courant dans l'industrie dans
lequel sont appliquées fréquemment les quatre relations
suivantes (en anglais):
(6.21)
Il s'agit de "l'analyse
par arbres d'erreurs" ou
"analyse par arbres probabilistes" qui
est utilisée pour analyser
les raisons possibles de défaillance d'un système
quel qu'il soit (industriel, administratif ou autre).
Pour clore cette partie du chapitre considérons
la figure suivante qui montre les diagrammes de Venn (cf.
chapitre de Théorie Des Ensembles) pour les 16 événements
(y compris l'événement impossible) qui peuvent être
décrits en termes de deux événements donnés
A et B. Dans chaque cas, l'événement
est représenté par
la zone rouge:

Figure: 6.1 - Diagrammes de Venn possibles pour deux événements
Considérons
la situation où A représente un tremblement de terre
et B représente une inondation majeure et U l'univers de
tous les événements dramatiques pour une centrale
nucléaire. Nous considérons que les deux événements
sont indépendants. Ensuite, chacune des 16 combinaisons
d'événements peuvent être décrites comme
suit, soit mathématiquement ou verbalement.
1. Un tremblement de terre peut se produire ou une inondation
ou rien ou l'ensemble à la fois ou tout autre événement
(bref n'importe quel événement peut se produire).
(6.22)
2. : Tout événement incluant un tremblement de terre,
une inondation ou les deux en même temps peut se produire.
(6.23)
3. : Tout événement incluant un tremblement de terre
avec ou sans une inondation peut se produire à l'exception
des événements incluant une inondation sans tremblement
de terre.
(6.24)
4. : Tout événement incluant une inondation avec
ou sans tremblement de terre peut se produire à l'exception
des événements incluant un tremblement de terre sans
inondation.
(6.25)
5. : Tout événement peut se produire sauf ceux incluant
un tremblement de terre accompagné d'une inondation.
(6.26)
6. A: Tout événement avec un tremblement de terre
peut se produire (cela inclut donc les événements
associant un tremblement de terre et une inondation).
(6.27)
7. B: Tout événement avec une inondation peut se
produire (cela inclut donc les événements associant
une inondation et un tremblement de terre).
(6.28)
8. : Tout événement peut se produire sauf ceux incluant
un tremblement de terre sans inondation ou ceux incluant une inondation
sans tremblement de terre.
(6.29)
9. : Tout événement incluant un tremblement de terre
sans inondation ou une inondation sans tremblement de terre peut
avoir lieu.
(6.30)
10. : Tout événement excepté ceux associés à une
inondation peuvent avoir lieu.
(6.31)
11. : Tout événement excepté ceux associés à un
tremblement de terre peuvent avoir lieu.
(6.32)
12. : Tout événement associant un
tremblement de terre et une inondation peut avoir lieu.
(6.33)
13. :
Tout événement
avec un tremblement de terre sans inondation peut avoir lieu.
(6.34)
14. :
Tout événement
avec une inondation sans tremblement de terre peut avoir lieu.
(6.35)
15. : Tout événement peut avoir lieu excepté ceux
incluant un tremblement de terre et/ou une inondation.
(6.36)
16. ou
: Événement
impossible.
(6.37)
PROBABILITÉS
CONDITIONNELLES
Que pouvons-nous déduire sur la probabilité d'un évènement B
sachant qu'un évènement A est réalisé sachant
qu'il existe une lien entre A et B?
En d'autres termes, s'il existe bien un lien entre A et B,
la réalisation de A va modifier notre connaissance
sur B et nous
voulons savoir s'il est possible de définir
la probabilité d'un événement
conditionnellement (relativement) à un autre événement.
Ce type de probabilité est appelée "probabilité
conditionnelle" ou "probabilité
à posteriori" de B sachant A,
et se note dans le cadre de l'étude des probabilités
conditionnelles:
(6.38)
et souvent dans la pratique pour éviter la
confusion avec une possible division:
(6.39)
et nous trouvons parfois chez les américains la notation:
(6.40)
ou encore:
(6.41)
Nous avons aussi le cas:
(6.42)
qui
est appelé "fonction
de vraisemblance de A" ou encore "probabilité a
priori de A" sachant B.
Historiquement, le premier mathématicien à avoir utilisé correctement
la notion de probabilité
conditionnelle fut Thomas Bayes (1702-1761). Aussi parlons-nous
souvent de Bayes ou de bayésien dès que des probabilités
conditionnelles sont en jeu: formule de Bayes, statistique bayésienne...
La notion
de probabilité conditionnelle que nous allons introduire est beaucoup
moins simple qu'elle ne paraît a priori et les problèmes de conditionnement
sont une source inépuisable d'erreurs en tout genre (il existe
de fameux paradoxes sur le sujet).
Commençons d'abord par un exemple simpliste: Supposons
que nous ayons deux dés.
Imaginons maintenant que nous ayons lancé seulement le premier
dé. Nous voulons
savoir quelle est la probabilité
qu'en lançant le second dé, la somme des deux chiffres vaille
une certaine valeur minimale. Ainsi, la probabilité d'obtenir
cette valeur minimale fixée
sachant la valeur du premier dé
est totalement différente de la probabilité d'obtenir
cette même
valeur minimale en lançant
les deux dés en même temps. Comment calculer cette
nouvelle probabilité?
Formalisons
la démarche:
Après le lancer du premier dé, nous
avons:
(6.43)
Soit l'hypothèse que ,
nous pressentons
que P(B / A) doit être proportionnel à P(B),
la constante de proportionnalité étant
déterminée par la normalisation:
(6.44)
Soit maintenant
(B est inclus dans le complémentaire de A donc
les événements sont incompatibles). Il est relativement
intuitif.... que sous hypothèse précédente
d'incompatibilité
nous ayons la probabilité conditionnelle:
(6.45)
Ceci
nous mène aux définitions suivantes des probabilités à posteriori
et respectivement à priori:
et
(6.46)
Ainsi, le fait de savoir que A est réalisé réduit
l'ensemble des résultats possibles de U de B.
A partir de là, seules les éventualités
de ont
une importance. La probabilité de A sachant B inversement
(par symétrie) doit donc être proportionnelle à !
Le coefficient de proportionnalité qui est le dénominateur
permet d'assurer l'événement certain. Effectivement,
si les deux événements A et B sont
indépendants (pensez à l'histoire du chat noir et de
l'échelle
par exemple), nous avons donc:
(6.47)
et nous voyons alors P(B / A) qui
vaut P(B) et donc A n'apporte
rien sur B et réciproquement!! Donc en d'autres
termes, si A et B sont indépendants nous avons:
et (6.48)
Une autre façon assez intuitive pour voir les choses est de se
représenter la mesure de probabilité P comme une mesure
d'aires de sous-ensembles
de .
En effet, si A et B sont deux sous-ensembles de d'aires
respectives P(A) et P(B) alors à la question de savoir
qu'elle est la probabilité qu'un point du plan appartienne à B sachant
qu'il appartient à A il est assez évident de répondre que
cette probabilité est donnée par:
(6.49)
Indiquons aussi que la définition des
probabilités conditionnelles s'utilise souvent sous la forme
suivante:
(6.50)
appelée "formule
des probabilités composées". Ainsi, la
probabilité à posteriori de B sachant A peut
donc aussi s'écrire sous la forme:
(6.51)
Exemple:
Supposons une maladie comme la méningite. La probabilité de
l'avoir sera notée (chiffre
arbitraire pour l'exemple) et un signe de cette maladie comme le
mal de tête sera noté .
Supposons connue la probabilité à posteriori d'avoir
mal à la
tête
si nous avons une méningite:
(6.52)
Le théorème de Bayes donne alors la probabilité a priori
d'avoir une méningite
si nous avons mal à la tête!:
(6.53)
Pour en revenir à la théorie, notons que nous avons
aussi:
(6.54)
Nous pouvons donc connaître la probabilité de l'événement A
connaissant les probabilités élémentaires
de ses causes
et les probabilités conditionnelles de A pour
chaque :
(6.55)
qui est appelée la "formule des probabilités
totales" ou "théorème
des probabilités totales". Mais
aussi, pour tout j,
nous avons le corollaire suivant en utilisant les résultats
précédents qui nous donne suite à un événement A,
la probabilité que ce soit la cause qui
l'ai produit:
(6.56)
qui est la forme générale de la "formule
de Bayes" ou "théorème
de Bayes" que nous utiliserons un tout petit peu
en Mécanique Statistique et dans le cadre de l'étude
de la théorie des files d'attentes (cf.
chapitre de Techniques De Gestion). Il
faut savoir que les implications de ce théorème
sont cependant considérables dans le quotidien, dans
la médecine,
dans l'industrie et dans le domaine du Data Mining informatique.
Nous retrouvons souvent dans la littérature de nombreux
exemples d'applications de la relation précédente
avec uniquement deux issues possibles B
relativement à l'événement A. Dès
lors nous avons la formule de Bayes écrite sous la
forme suivante pour chacune des issues:
(6.57)
et remarquons que dans ce cas particulier (des issues
binaires):
(6.58)
ce qui est un résultat intuitif.
Pour les événements binaires, nous
avons aussi (en revenant au théorème des probabilités
totales vu plus haut):
(6.59)
Exemples:
E1.Une maladie affecte 10 personnes sur 10'000 (soit 0.1% = 0.001).
Un test a été développé qui a 5% de faux positifs (personnes non
atteint pour lequel le test dit qu'ils sont atteintes) mais qui
détecte
toujours cette maladie si une personne est atteinte. Quelle est
la probabilité qu'une personne aléatoire pour laquelle le test
donne un résultat positif a vraiment cette maladie?
Il y a donc sur 10'000 personnes, 500 qui seront des faux positifs
et nous savons a posteriori que 10 personnes ont réellement la
maladie. Alors la probabilité que quelqu'un qui a un résultat
de test positif soit vraiment malade est:
(6.60)
Ce résultat est souvent contre-intuitif et même scandaleux. Il
met aussi en évidence pourquoi les tests de diagnostiques doivent être
extrêmement fiables!
E2. Deux machines et produisent
respectivement 100 et 200 pièces. produit
5% de pièces défectueuses et en
produit 6% (probabilités a posteriori).
Quelle est la probabilité a priori pour
qu'un objet défectueux
ait été fabriqué
par la machine ?
L'événement constaté A est donc la présence d'une pièce
défectueuse et la probabilité recherchée est la probabilité a priori
que celle-ci provienne de la machine .
Nous avons alors:
(6.61)
E3. D'un lot de 10 pièces dont le 30% est défectueux,
nous prélevons
sans remise un échantillon de taille 3. Quelle est la probabilité que
la seconde pièce soit bonne (quelle que soit la première)?
Nous avons:
(6.62)
où est
la probabilité que la deuxième soit bonne sachant que la première
est mauvaise et est
la probabilité que la deuxième soit bonne sachant que la première
est bonne. est
donc la probabilité que la première soit mauvaise, la
probabilité que la première soit bonne.
E4. Terminons avec un exemple important dans les entreprises
où les employés doivent plusieurs fois dans leur
carrière passer des examens sous forme de questionnaire à choix
multiples (Q.C.M.). Si un employé répond à une
question de deux choses l'une: soit il connaît la réponse,
soit il la devine. Soit p la probabilité que l'employé connaisse
la réponse et donc 1-p celle qu'il la devine. Nous
admettons que l'employé qui devine répondra correctement
avec une probabilité 1/m où m est
le nombre de réponses
proposées. Quelle est alors la probabilité a priori
qu'un employé connaisse (réellement) la réponse à une
question à 5
choix s'il y a répondu correctement?
Soient B et A respectivement les événements "l'employé connaît
la réponse" et "l'employé répond
correctement à la question". Alors la probabilité à priori
qu'un employé connaisse (réellement) la réponse à une
question qu'il a répondu correctement est:
(6.63)
L'analyse bayésienne fournit donc un outil puissant de
formalisation du raisonnement dans l'incertain et les exemples
que nous avons montrés illustrent surtout à quel
point cet outil est délicat à employer.
ESPÉRANCE CONDITIONNELLE
Maintenant, passons à la version continue de la probabilité conditionnelle
en abordant le sujet directement avec un exemple particulier (la
théorie
avec le cas général étant indigeste) infiniment important dans
le domaine de statistiques sociales et de la finance quantitative.
Cependant,
ce choix (de l'étude d'un cas particulier) implique que
le lecteur ait lu au préalable le chapitre de Statistiques pour
y étudier les fonctions de distributions continues et plus particulièrement
celle de la loi de Pareto.
Donc voilà le scénario: Souvent, en sciences sociales
ou en économie, nous trouvons dans la littérature spécialisée traitant
des lois de Pareto des affirmations du type suivant (mais quasiment
jamais avec une démonstration détaillée): quel que soit votre revenu,
le revenu moyen de ceux qui ont un revenu supérieur au vôtre est
dans un rapport constant, supérieur à 1, à votre revenu si celui-ci
suit une variable aléatoire de type Pareto. Nous disons alors que
la loi est isomorphe à toute partie tronquée elle-même.
Voyons de quoi il s'agit exactement:
Soit X une variable aléatoire égale au revenu et suivant
une loi de Pareto de densité (cf. chapitre
de Statistiques):
(6.64)
avec et
qui a pour fonction de répartition (voir aussi le chapitre
de Statistique pour la démonstration détaillée):
(6.65)
La phrase commence par "quel que soit votre revenu...",
choisissons donc un revenu quelconque .
À présent nous devons calculer "le revenu moyen de ceux qui
ont un revenu supérieur à ".
Il s'agit donc de calculer l'espérance (le revenu moyen) d'une
nouvelle variable aléatoire Y qui est égale à X mais
restreinte à la population des personnes ayant un revenu supérieur à :
(6.66)
La fonction de répartition de Y est donnée par:
(6.67)
Cette expression est naturellement nulle si .
Bon, jusqu'à maintenant nous n'avons fait que du vocabulaire.
D'abord rappelons la relation de probabilité conditionnelle
suivante vue plus haut:
(6.68)
pour nous
avons la loi conditionnelle à priori:
(6.69)
Avant d'aller plus loin, il faut être conscient que le numérateur
et dénominateur sont indépendants mais que l'ensemble doit être
toutefois considéré comme la réalisation d'une seule et unique
variable aléatoire que nous noterons Y. Par ailleurs, seulement
le numérateur est dépendant d'une variable. Le dénominateur
peut lui être considéré comme une constante de normalisation.
Nous voyons donc que la densité de Y est donnée par la
fonction:
(6.70)
À présent nous pouvons calculer l'espérance de Y:
(6.71)
Sachant que:
(6.72)
Nous avons au final:
(6.73)
E(Y) représente donc le revenu moyen de ceux qui
ont un revenu supérieur à et
comme on peut le constater de l'égalité ci-dessus il est bien dans
un rapport constant, supérieur à 1, à votre revenu .
Nous pouvons vérifier ce résultat en faisant
une simulation de Monte-Carlo dans un tableur (c'est intéressant
de le mentionner pour généraliser
à des cas non calculable à la main). Il suffit effectivement
d'y simuler l'inverse de la fonction de répartition:
(6.74)
soit dans MS Excel 11.8346 (version anglaise):
=($B$7^$B$6/(1-RANDBETWEEN(1;10000)/10000))^(1/$B$6)
et ensuite de prendre la moyenne des valeurs obtenues supérieurs
ou égales à un X donné (ce qui correspondra
à )
et vérifier que nous obtenons bien le résultat démontré précédemment!
Évidemment, nous pourrions aussi calculer la variance conditionnelle
(in extenso l'écart-type conditionnel). Cela viendra peut-être
un jour...
RÉSEAUX BAYÉSIENS
Les réseaux bayésiens sont simplement une représentation
graphique d'un problème de probabilités conditionnelles
qui permet de mieux visualiser l'interaction entre les différentes
variables lorsque que celles-ci commencent à être
en grande nombre.
C'est une technique de plus en plus utilisée dans le décisionnel
assisté par logiciel (Data Mining), l'intelligence artificielle
(AI) et également
dans l'analyse et la gestion du risque (norme ISO 31010).
Les réseaux bayésiens sont par définition
des graphes orientés acycliques (cf.
chapitre de Théorie Des Graphes), afin qu'un événement
ne puisse pas (même indirectement) influencer sa propre probabilité, avec
description quantitative des dépendances entre événements.
Ces graphes servent à la fois de modèles de représentation
des connaissances et de machines à calculer des probabilités
conditionnelles. Ils sont surtout utilisés pour le diagnostic
(médical et industriel), l'analyse de risques (diagnostics
de pannes, anomalies ou accidents), la détection des spams
(filtre bayésien), l'analyse de texte de voix et d'images, l'analyse
d'opinions, la
détection de fraudeurs ou de mauvais payeurs ainsi que dans
le data mining (EGC: Extraction et Gestion de la Connaissance)
en général.
Remarque: De nombreux systèmes
et logiciels permettent de construire et d'analyser des réseaux
bayésiens
sur la base de dessins ou de d'informations existantes dans des
bases de données. Solutions payantes: SQL Server, Oracle,
Hugin. Solutions gratuits (à ce jour): Bayesia, Tanagra,
Microsoft Belief Network MSBNX 1.4.2, RapidMiner.
Personnellement je préfère
la simplicité du
petit logiciel MSBNX de Microsoft. Pour information, en 10 ans
d'expérience
professionnelle en tant que consultant je n'ai rencontré à ce
jour qu'une seule entreprise parmi plus de 800 multinationales
dans
mon portefeuille qui utilisait les réseaux de bayésiens...
(dans le domaine des transports).
Utiliser un réseau bayésien s'appelle faire de "l'inférence
bayésienne".
En fonction des informations observées, nous calculons la
probabilité des
données possibles connues mais non observées.
Pour un domaine donné (par exemple médical), nous
décrivons les relations causales entre variables d'intérêt
par un graphe (plus besoin de préciser qu'il est acyclique). Dans
ce graphe, les relations de cause à effet
entre les variables ne sont pas déterministes, mais probabilisées.
Ainsi, l'observation d'une cause ou de plusieurs causes n'entraîne
pas systématiquement l'effet ou les effets qui en dépendent,
mais modifie seulement la probabilité de les observer.
L'intérêt particulier des réseaux bayésiens
est de tenir compte simultanément de connaissances a priori
d'experts (dans le graphe) et de l'expérience contenue dans
les données.
Exemple de 5 variables avec relations (graphe orienté acyclique)
et numérotation des états/variables (en anglais:
"states"):

Figure: 6.2 - Exemple de réseau bayésien (acyclique orienté) à 5 états
Évidemment, la construction du graphe causal
se fonde principalement sur le retour d'expériences (REX)
et résulte
parfois de normes ou de rapports de comités d'experts. Dans
l'informatique, le graphe causal évolue automatiquement
en fonction des bases de données (pensez à la librairie
Amazon qui cible les publicités en fonction de vos achats
passés en temps réel ou au service Genius de Apple).
Cependant nous pourrons rarement penser à toutes les possibilités
et il y aura aussi parfois des états cachés entre
deux états qui auront été oubliés mais
qui auraient permis de mieux modéliser la situation.
Imaginons dans l'exemple ci-dessus qu'à l'aide d'une base
de données d'une entreprise, nous sachions que sur 100'000
jours hommes, nous avons eu dans cette entreprise 1'000 accidents
du travail (soit 1% du total) et 100 pannes machines (soit 0.01%
du total). Nous représentons cela alors sous la forme traditionnelle
suivante:

Figure: 6.3 - Réseau bayésien acyclique orienté avec probabilités
de départ
où nous avons le sous-ensemble S2, S4, S5 qui constitue
ce que les spécialistes appellent une "connexion
série
ou linéaire", le triplet S3, S2, S4 constitue une "relation
divergente" (si les flèches pour ce triplet étaient
inversées, nous aurions une "relation
convergente").
Avant d'aller plus loin avec notre exemple faisons quelques constats
par rapport à ces trois types de relations:
Pour toute clarté, distinguons d'abord "l'indépendance
conditionnelle" de la "dépendance conditionnelle".
Nous disons que des événements A et C sont "indépendants
conditionnellement" si étant donné un événement
B l'égalité suivante est vérifiée:
(6.75)
Donc le qualificatif "conditionnellement" implique
la présence de B et le fait que C n'influence
pas la probabilité de l'événement A.
Concernant la "dépendance conditionnelle",
nous pouvons cette fois distinguer 3 types de relations.
1. La dépendance conditionnelle du type suivant est appelée "connexion
série ou linéaire" (déjà mentionnée plus haut):

Figure: 6.4 - Réseau bayésien en connexion série/linéaire
où A, B et C sont
dépendants (dans cet exemple particulier il y a 3 nœuds
dépendants A, B et C mais d'une manière générale
cette dépendance concernerait tous les noeuds s'il y en
avait plus de 3).
En outre A et C sont dépendants mais
conditionnellement à B.
Mais si la variable B est connue, A n'apporte
plus aucune information utile sur C (le cheminement
de l'incertitude est en quelque sorte rompu) et dès lors A et C deviennent
indépendants conditionnellement. Nous avons
la probabilité conditionnelle qui se simplifierait donc sous
la forme suivante:
(6.76)
2. La dépendance conditionnelle du type suivant
est appelée "connexion divergente" (aussi déjà mentionnée
plus haut):

Figure: 6.5 - Réseau bayésien divergent
où l'ensemble des nœuds sont dépendants.
En outre B et C sont dépendants
conditionnellement à A.
Mais si A est connue, B n'apporte plus aucune
information sur C (à nouveau le cheminement
de l'incertitude est en quelque sorte rompu) et dès lors B et C deviennent
indépendants.
Nous avons donc par exemple si A est connue:
(6.77)
3. La dépendance conditionnelle du type suivant
est appelée "connexion convergente" ou "V-Structure" (aussi
déjà mentionnée plus haut):

Figure: 6.6 - Réseau bayésien convergent
où cette fois les parents sont indépendants.
Donc B et C sont indépendants mais deviennent
dépendants conditionnellement à A. Si A est connue,
nous avons alors:
(6.78)
La dépendance entre les parents passe donc
par l'observation de leur enfant commun.
Maintenant, pour faire un exemple concret, imaginons
que notre base de données
nous donne (grâce aux responsables qualité qui ont
toujours su saisir les anomalies qualité) que lorsqu'une
panne machine a eu lieu, 99 fois sur 100 (99%) il y a eu un arrêt
total de la production (donc in extenso 1 fois sur 100: 1% il n'y
pas eu d'arrêt de la production) et que sur tous les arrêts
de la production 1% n'était pas dû à une panne
machine. Ce que nous représentons traditionnellement
sous la forme suivante:

Figure: 6.7 - Réseau bayésien de 1er niveau
Donc
la "probabilité implicite" qu'il y ait un arrêt de la
production est donnée par:
(6.79)
Ce chiffre représente donc la proportion implicite d'arrêts
de production parmi les 100'000 jours hommes (nous pouvons donc donner une
proportion de lignes de la base données représentant un arrêt production quelle
que soit la cause et ce sans même avoir les détails de la base de données).
Il en découle immédiatement alors la probabilité implicite
qu'il n'y ait pas d'arrêt de la production:
(6.80)
Ce qui est conforme à ce que nous donne le logiciel gratuit
MSBNX 1.4.2:

Figure: 6.8 - Début du réseau bayésien dans MSBNX 1.4.2
Maintenant supposons que nous avons observé un arrêt de la production.
Quelle est la probabilité à posteriori qu'il soit dû à une
panne machine? Nous avons alors:
(6.81)
Ce que nous pouvons aussi vérifier avec le logiciel MSBNX
1.4.2:

Figure: 6.9 - Probabilité a posteriori d'un arrêt dû à une panne machine
dans
MSBNX
1.4.2
Maintenant, imaginons que notre base de données nous donne (toujours
grâce aux responsables qualité qui ont veillé à saisir
les anomalies qualité) que 99 fois sur 100 (99%) lorsqu'il y a eu un
arrêt de la production, il y a eu une évacuation. En revanche
5 % des évacuations ont été identifiées comme n'ayant
rien à voir avec un arrêt de la production (donc 95% des évacuations
sont dues à des exercices d'incendie OU à d'autres événements):

Figure: 6.10 - Réseau bayésien de deuxième niveau
Maintenant, pour calculer la probabilité implicite des évacuations
a posteriori par rapport aux pannes machines, nous avons vu que lorsque nous
avions une dépendance conditionnelle série, la probabilité conditionnelle
ne dépendait que du parent direct. Ainsi, il vient:
(6.82)
Ce qui peut se vérifier avec le logiciel MSBNX 1.4.2:

Figure: 6.11 - Probabilité implicite d'une évacuation dans
MSBNX
1.4.2
Donc la probabilité implicite de l'évacuation ne dépend
effectivement pas des pannes de machines.
Maintenant supposons que nous avons observé une évacuation.
Nous voulons savoir quelle est la probabilité a posteriori qu'elle soit
due à une
panne machine! Nous avons alors:
(6.83)
Ce que nous pouvons aussi vérifier avec le logiciel MSBNX
1.4.2:

Figure: 6.12 - Probabilité a posteriori d'une évacuation due à une
panne machine
dans
MSBNX
1.4.2
Maintenant nous étudions le cas avec l'alarme et là aussi une
base de données nous permet de construire un tableau avec les différentes
probabilités:

Figure: 6.13 - Réseau bayésien de deuxième niveau avec seconde
branche
Maintenant, pour calculer la probabilité implicite qu'il
y ait une alarme, il va falloir considérer les quatre situations possibles.
Nous avons alors en utilisant le théorème des probabilités
totales:
(6.84)
Ce qui un peu plus rigoureusement devrait s'écrire:
(6.85)
L'application numérique donne donc pour la probabilité
implicite d'une alarme:
(6.86)
Ce qui se construit et se vérifie de la manière
suivante avec MSBNX 1.4.2:

Figure: 6.14 - Probabilité implicite d'une alarme
dans
MSBNX
1.4.2
Concernant les notations, il peut être utile au lecteur de savoir qu'il
peut parfois trouver dans la littérature:
(6.87)
Remarque: Dans l'exemple particulier étudié ici
les événements ont tous deux états. Mais dans la pratique
cela peut aller à 3, 4 et plus. Dès lors les tableaux de croisement
de probabilités deviennent vite énormes.
Comme pour les cas précédents, supposons que nous savons qu'il
y a eu un accident de travail. Nous souhaitons alors calculer la probabilité a
priori d'une alarme. Nous avons alors (observez que la probabilité ne dépend
effectivement alors plus que de l'état S2 puisque l'état S1
est entièrement connu!):
(6.88)
Ce que nous pouvons aussi vérifier avec le logiciel MSBNX
1.4.2:

Figure: 6.15 - Probabilité implicite d'une alarme
dans
MSBNX
1.4.2
Ainsi, savoir qu'il y a eu un accident de travail augmente la probabilité qu'il
y ait bien une alarme (nous passons d'une probabilité de 10.089% à 10.65%).
Pour terminer cet exemple, nous souhaiterions calculer les probabilités
a posteriori et
.
Pour cela, nous devons d'abord calculer les probabilités a priori et (cette
dernière
venant d'être calculée).
Nous avons pour la valeur manquante (ce qui se vérifie aussi facilement
qu'avant avec le logiciel MSNBX 1.4.2):
(6.89)
Nous avons donc:
(6.90)
Nous avons maintenant tout ce qu'il faut pour calculer la probabilité a
priori de et :
(6.91)
Donc la probabilité a priori qu'il y ait une panne machine
lorsque nous savons qu'il y a une alarme est de 0.979% (donc in extenso 0.021%
que le déclenchement de l'alarme ne soit pas dû a priori à une
panne machine). Respectivement il y a, a priori, 0.998 % de probabilité y
ait un accident de travail lorsque nous savons qu'il y a une alarme (et donc
0.002 % que cela ne soit pas dû a priori à un accident de travail).
Du point de vue critique, lorsqu'il y a donc une alarme finalement nous ne
pouvons pas dire grand chose... Cela est dû, dans le cas présent,
au fait que les événements d'intérêt notable ont
tous deux de faibles probabilités d'avoir lieu (accident de travail
et panne machine) et que les employés réagissent plutôt
bien au niveau du déclenchement
de l'alarme (sinon si les probabilités a priori étaient grandes
cela signifierait que le comportement des employés n'est pas bon puisque
nous pouvons deviner - avec exaspération - à l'avance
quel problème a lieu avec une certaine confiance).
Remarque: Nous n'avons pas trouvé comment
vérifier ces derniers
calculs avec MSNBX 1.4.2. Si quelqu'un trouve comment le faire, ce serait super
de nous communiquer le détail de la démarche.
Pour clore, le lecteur aura remarqué que les calculs peuvent vite devenir
ennuyeux dès que le graphe devient complexe d'où l'usage de logiciels
informatiques. De plus, dans le domaine bancaire qui utilise par exemple les
réseaux bayésiens pour les risques de crédit, la probabilité a
priori peut être plus complexe. Par exemple nous pourrions vouloir connaître
la probabilité a priori qu'il y ait une panne machine sachant que nous
avons une alarme et un accident de travail:
(6.92)
MARTINGALES
Une martingale en probabilités (il en existe une autre dans les
processus stochastiques) est une technique permettant d'augmenter
les chances de gain aux jeux
de
hasard tout
en respectant
les règles
de jeu. Le principe dépend complètement du type de jeu qui en est
la cible, mais le terme est accompagné d'une aura de mystère qui
voudrait que certains joueurs connaissent des techniques secrètes
mais efficaces pour tricher avec le hasard. Par exemple, de nombreux
joueurs (ou
candidats au jeu) cherchent LA martingale qui permettra de battre
la banque dans les jeux les plus courants dans les casinos (des
institutions dont la rentabilité repose presque entièrement sur
la différence - même faible - qui existe entre les chances de gagner
et celles de perdre).
De nombreuses martingales ne sont que le rêve de leur auteur,
certaines sont en fait inapplicables, quelques-unes permettent
effectivement de tricher un peu. Les jeux d'argent sont en général
inéquitables: quel que soit le coup joué, la probabilité de gain
du casino (ou de l'État dans le cas d'une loterie) est plus importante
que celle du joueur. Dans ce type de jeu, il n'est pas possible
d'inverser les chances, seulement de minimiser la probabilité de
ruine du joueur.
L'exemple le plus courant est la martingale de la roulette. Elle
consiste à jouer une chance simple à la roulette
(noir ou rouge, paire ou impaire) de façon à gagner,
par exemple, une unité dans
une série de coups en doublant sa mise si l'on perd, et
cela jusqu'à ce
que l'on gagne. Exemple: le joueur mise 1 unité sur le rouge,
si le rouge sort, il arrête de jouer et il a gagné 1 unité (2
unités
de gain moins l'unité de mise), si le noir sort, il double
sa mise en pariant 2 unités sur le rouge et ainsi de suite
jusqu'à ce qu'il
gagne.

Figure: 6.16 - Roulette de casino
Ayant une chance sur deux de gagner, il peut penser qu'il va
finir par gagner ; quand il gagne, il est forcément remboursé de
tout ce qu'il a joué, plus une fois sa mise de départ.
Cette martingale semble être sûre en pratique. À noter que sur
le plan théorique, pour être sûr de gagner, il faudrait
avoir la possibilité de jouer au cas où un nombre de fois
illimité.... Ce qui
présente des inconvénients majeurs:
Cette martingale est en fait limitée par les mises que
le joueur peut faire car il faut doubler la mise à chaque
coup tant que l'on perd: 2 fois la mise de départ, puis
4, 8, 16.... s'il perd 10 fois de suite, il doit pouvoir avancer
1024 fois sa mise initiale
pour la 11e partie ! Il faut donc beaucoup d'argent pour gagner
peu.ü
Les roulettes comportent de plus un "0" qui n'est ni
rouge ni noir. Le risque de perdre lors de chaque coup est ainsi
plus
grand que 1/2...
De plus, pour paralyser cette stratégie, les casinos proposent
des tables de jeu par tranche de mise: de 1 à 100.-, de
2 à 200.-,
de 5 à 500.-, ... Impossible donc d'utiliser cette méthode
sur un grand nombre de coups, ce qui augmente le risque de tout
perdre.
Le black jack est un jeu qui possède des stratégies gagnantes: plusieurs techniques de jeu, qui nécessitent généralement de
mémoriser les cartes, permettent de renverser les chances en faveur
du joueur. Le mathématicien Edward Thorp a ainsi publié en 1962
un livre qui fut à l'époque un véritable best-seller. Mais toutes
ces méthodes demandent de longues semaines d'entraînement et sont
facilement décelables par le croupier (les brusques changements
de montant des mises sont caractéristiques). Le casino a alors
tout loisir d'écarter de son établissement les joueurs en question.
Il
faut noter qu'il existe des méthodes assez évoluées. L'une
d'elles repose sur les combinaisons les moins jouées. Dans les
jeux où le gain dépend du nombre de joueurs gagnants (Loto...),
jouer les combinaisons les moins jouées optimisera les gains. C'est
ainsi que certaines personnes vendent des combinaisons qui seraient
statistiquement très rarement utilisées par les autres joueurs.
Partant de ce raisonnement, on peut encore conclure qu'un joueur
qui aurait réussi à déterminer ainsi les combinaisons
statistiquement les moins jouées, afin d'optimiser son espérance
de gain, ne sera en fait certainement pas le seul joueur à avoir
obtenu par l'analyse ces fameuses combinaisons! Cela revient à dire
que les numéros
en théorie
les moins joués sont en fait surjoués par combinaisons,
le mieux serait peut-être de réaliser un savant mélange
de numéros sous-joués
et de numéros surjoués pour obtenir les combinaisons
idéales. Une autre conclusion à tout
cela est peut-être
que le mieux est encore de jouer des combinaisons aléatoires
qui ont finalement moins de chance d'être également choisies
par les joueurs qui incorporent un facteur humain et harmonieux
dans le
choix de leurs nombres.
ANALYSE
COMBINATOIRE
"L'analyse
combinatoire" (techniques de dénombrement) est
le domaine de la mathématique
qui s'occupe de l'étude de l'ensemble des issues, événements
ou faits (distinguables ou non tous distinguables) avec leurs arrangements
(combinaisons) ordonnés ou non selon
certaines
contraintes
données.
Définitions:
D1. Une suite
d'objets (événements, issues, objets,...) est dite "ordonnée"
si chaque suite composée d'un ordre particulier des objets est
comptabilisée comme une configuration particulière.
D2. Une suite est donc "non ordonnée" si
et seulement si nous intéresse
la fréquence d'apparition des objets indépendamment de leur ordre.
D3. Des objets
(d'une suite) sont dits "distincts" si
leurs caractéristiques
ne permettent pas de les confondre avec des autres objets.
Remarque: Nous avons choisi de mettre l'analyse combinatoire
dans ce chapitre car lorsque nous calculons des probabilités,
nous avons
également assez souvent besoin de savoir quelle est la probabilité
de tomber sur une combinaison ou un arrangement d'événements donnés
sous certaines contraintes.
Souvent les étudiants ont de la peine à se rappeler de la différence
entre une permutation, un arrangement et une combinaison. Voici
donc un petit résumé de ce que nous allons voir:
- Permutation: On prend tous les éléments.
- Arrangement: On choisit des éléments
parmi ceux de l'ensemble de départ et l'ordre intervient
- Combinaison: Idem que pour l'arrangement mais l'ordre n'intervient
pas
Il ne faut pas oublier que pour le résultat de chacun,
l'inverse donnera la probabilité de tomber respectivement
sur une Permutation/Arrangement/Combinaison donnée!! Nous allons présenter
et démontrer ci-dessous
les 6 cas les plus répandus à partir desquels nous
pouvons trouver (habituellement) tous les autres:
ARRANGEMENTS
SIMPLES AVEC RÉPÉTITIONS
Définition: Un "arrangement
simple avec répétitions" est une suite
ordonnée
de longueur m
de n
objets distincts non
nécessairement tous différents dans la suite (soit
avec répétitions
possibles!).
Soient A et
B deux
ensembles finis de cardinaux respectifs m,
n
tels que trivialement il y ait m façons
de choisir un objet dans A (de
type a)
et n façons
de choisir un objet dans B (de
type b).
Nous avons vu dans le chapitre de Théorie
Des Ensembles que si A et B sont
disjoints, que:
(6.93)
Nous
en déduisons donc les propriétés suivantes:
P1. Si un objet ne peut être
à la fois de type a et
de type b et
s'il y a m façons
de choisir un objet de type a et
n façons
de choisir un objet de type b,
alors l'union des objets donne sélections
(c'est typiquement le résultat des requêtes d'UNION
en SQL, sans filtres, dans les SGBDR des entreprises).
P2. Si nous pouvons choisir
un objet de type a de
m façons
puis un objet de type b de
n façons,
alors il y a selon le produit cartésien de deux ensembles (cf.
chapitre de Théorie
Des Ensembles):
(6.94)
de manières choisir un seul et unique
objet de type a puis
un objet de type b (this is typically the result of SELECT
queries in SQL, without filters, with several unrelated tables
in corporate RDBMS).
Avec les mêmes notations pour m et n, nous pouvons
donc choisir pour chaque élément
de A,
son unique image parmi les n éléments
de B.
Il y a donc n façons
de choisir l'image du
premier élément de
A,
puis aussi n façons
de choisir l'image
du deuxième élément de A, ..., puis n façons
de choisir l'image
du m-ème élément de A. Le
nombre d'applications totales consécutives possibles de A dans
B est
donc égal aux m produits de n (m fois
le produit cartésien du cardinal de l'ensemble B avec
lui-même donc!).
Ce qu'il est d'usage d'écrire (nous avons mis les différentes
écritures que l'on peut trouver dans les livres scolaires):
(6.95)
où est
l'ensemble des applications de A dans
B. La progression du nombre de possibilités est donc
géométrique
(et non "exponentielle" comme il est souvent dit à tort!).
Ce résultat mathématique est assimilable au résultat
ordonné (un arrangement dont
l'ordre des éléments de la suite est pris
en compte) de m tirages
dans un sac contenant n boules
différentes avec remise après chaque tirage. Il est
d'usage en France d'appeler cela une "p-liste".
Exemples:
E1. Combien de "mots" (ordonnés) de 7 lettres
pouvons-nous former à partir d'un alphabet de 24 lettres distinctes
(très
utile pour connaître le nombre d'essais pour trouver un
mot de passe par exemple)? La solution est:
(6.96)
E2. Combien de groupes d'individus aurons-nous lors d'une votation
sur 5 sujets et où chacun peut être soit accepté, soit rejeté?
La solution (très utilisée dans les entreprises
en Suisse) est:
(6.97)
Une généralisation simple
de ce dernier résultat peut consister dans l'énoncé du problème
suivant:
Si nous disposons de m objets tels
que peut
prendre états
différents alors le nombre de combinaisons possibles est:
(6.98)
Et si nous avons alors
nous retombons sur:
(6.99)
Exemple:
Un graphiste a créé sous le logiciel Adobe Photoshop
une maquette d'une site Internet avec trois en-têtes différentes,
deux variantes pour le corps, quatre variantes pour le fond, six
variantes de menus et trois variantes pour le pied de pages. Le
nombre total de combinaisons (compositions dans le langage du graphiste)
que l'on pourra présenter au client sera de:
(6.100)
PERMUTATIONS
SIMPLES sans répétitionS
Définition: Une "permutation
simple sans répétitions" (appelée
anciennement
"substitution") de n
objets distincts est une suite ordonnée (différente)
de ces n
objets par définition tous différents dans la suite
(sans répétition).
Remarque: Attention à ne pas
confondre le concept de permutation (de n éléments
entre eux) et
d'arrangement (de n éléments parmi m)!
Le nombre de permutations de n éléments peut être
calculé
par récurrence: il y a n places pour un premier élément,
n-1 pour un deuxième élément,
..., et il ne restera qu'une place pour le dernier élément
restant.
Il est dès lors trivial que
nous aurons un nombre de permutations donné par:
(6.101)
Rappelons que le produit:
(6.102)
est appelé "factorielle
de n"
et nous la notons n!
pour .
Il y a donc pour n
éléments distinguables:
(6.103)
permutations possibles. Ce type de calcul peut être par
exemple utile en gestion de projets (calcul du nombre de manière
différentes
de recevoir dans une chaîne de production n pièces
toutes différentes commandées chez des fournisseurs
externes).
Exemple:
Combien de "mots" (ordonnés) de 7 lettres distinctes
sans répétition pouvons-nous former?
(6.104)
Ce
résultat nous amène à l'assimiler au résultat ordonné (un arrangement
dont
l'ordre des éléments de la suite est pris en compte) du tirage
de toutes les boules différentes d'un sac contenant n boules
distinguables sans remise.
PERMUTATIONS
SIMPLES AVEC RÉPÉTITIONS
Définition: Lorsque nous
considérons le nombre de permutations ordonnées (différentes)
d'une suite de n
objets distincts tous nécessairement non différents
dans une quantité
donnée dans la suite nous parlons de "permutation
simple avec répétitions".
Remarque: Il ne faut pas confondre
cette dernière définition avec "l'arrangement
avec répétition" vu plus haut!
Lorsque certains éléments
ne sont pas tous distinguables dans une suite d'objets (ils
sont répétitifs dans la suite), alors le nombre
de permutations que nous pouvons constituer se réduit
alors assez trivialement à un
nombre plus petit que si tous les éléments étaient
tous distinguables.
Soit le
nombre d'objets du type i, avec:
(6.105)
alors, nous notons:
(6.106)
avec le
nombre de permutations possibles (pour l'instant inconnu) avec répétition
(un ou plusieurs
éléments répétitifs dans une suite
d'éléments sont non distinguables
par permutation).
Si chacune des places
occupées par des éléments identiques était occupée par des éléments
différents, le nombre de permutations serait alors à multiplier
par chacun des (cas
précédent).
Il vient alors que nous retombons
sur la factorielle telle que:
(6.107)
dont nous déduisons immédiatement:
(6.108)
Si les n objets sont tous différents dans la suite,
nous avons alors:
(6.109)
et
nous nous retrouvons bien avec une permutation
simple (sans répétition) telle que:
(6.110)
Il conviendra donc de se rappeler que les permutations
avec répétition sont en plus petit nombre que celles
sans répétition
(évident puisque nous ne prenons pas en compte les permutations
des éléments identiques entre eux!).
Exemple:
Combien de "mots" (ordonnés) pouvons-nous former
avec les lettres du mot "Mississippi":
(6.111)
Ce
résultat nous amène à l'assimiler au résultat
ordonné (une permutation dont
l'ordre des éléments de la suite n'est pas pris
en compte) du tirage de n
boules non toutes distinguables d'un sac contenant
boules avec remise limitée pour chaque boule.
ARRANGEMENTS
SIMPLES SANS RÉPÉTITIONS
Définition: Un "arrangement
simple sans répétitions" est une suite
ordonnée de p objets
tous distincts pris parmi n objets
distincts avec .
Nous nous proposons donc maintenant de dénombrer les arrangements
possibles sans répétition de p objets parmi n.
Nous noterons le
nombre de ces arrangements.
Il est aisé de calculer et
de vérifier que .
Effectivement,
il existe n façons de choisir le premier objet
et (n-1) façons de choisir le deuxième lorsque nous
avons déjà le premier.
Pour déterminer ,
nous raisonnons alors par récurrence. Nous supposons connu
et nous en déduisons:
(6.112)
Dès lors:
(6.113)
alors:
(6.114)
d'où:
(6.115)
Ce
résultat nous amène à l'assimiler au résultat
ordonné (un arrangement
dont
l'ordre des éléments de la suite est pris en compte)
du tirage de p
boules distinctes d'un
sac contenant n boules
différentes sans remise.
Exemple:
Soit les 24 lettres de l'alphabet, combien de "mots"
(ordonnés) de 7 lettres distinctes pouvons-nous former?
(6.116)
Le lecteur aura peut-être remarqué que si
nous prenons
nous nous retrouvons avec:
(6.117)
donc nous pouvons dire qu'une permutation simple de n éléments
est comme un arrangement simple sans répétition
avec .
COMBINAISONS
SIMPLES SANS RÉPÉTITIONS
Définition: Une "combinaison
simple sans répétitions"
ou "choix" est une suite
non-ordonnée
(dont l'ordre ne nous intéresse pas!) de p éléments
tous différents
(pas nécessairement dans le sens visuel du terme!) choisis
parmi n objets
distincts et est par définition
notée sur ce site Internet
et appelée la "binomiale" ou
"coefficient binomial".
Si nous permutons les éléments de chaque arrangement
simple de p éléments
parmi n, nous obtenons toutes les permutations simples
et nous savons qu'il y en a p! d'où en utilisant
la convention d'écriture du présent site internet
(contraire à celle
préconisée par la norme ISO 31-11 et ISO 80000-2:2009!):
(6.118)
C'est une relation très souvent utilisée
dans les jeux de hasard mais également dans l'industrie
via la loi hypergéométrique
(cf. chapitre de Techniques De Gestion)
ainsi que dans les statistiques d'assez haut niveau comme les statistiques
d'ordre (cf. chapitre de Statistiques).
Ce résultat nous amène à l'assimiler
au résultat non ordonné (un arrangement dont
l'ordre des éléments de la suite n'est pas pris en
compte) du tirage de p boules d'un sac contenant n boules
différentes sans remise.
Remarques:
R1. Nous avons nécessairement par construction .
R2. Selon les auteurs nous inversons l'indice ou le suffixe de C il
faut donc être prudent!
Exemple:
Soit un alphabet de 24 lettres, combien avons-nous de choix de
prendre 7 lettres parmi les 24 sans prendre en compte l'ordre
dans lequel sont triées les lettres:
(6.119)
La même valeur peut être obtenue avec la fonction
COMBIN( ) de Microsoft Excel 11.8346 (version française).
Il existe, relativement
à la binomiale, une autre relation très souvent
utilisée dans de nombreux cas d'études ou également
de manière plus globale en physique ou analyse fonctionnelle.
Il s'agit de la "formule de Pascal":
(6.120)
Démonstration:
(6.121)
Or donc:
(6.122)
et de même :
(6.123)
Ainsi:
(6.124)
C.Q.F.D.
COMBINAISONS SIMPLES AVEC RÉPÉTITIONS
Définition: Une
"combinaison simple avec répétitions"
de p éléments
parmi n est une collection de p éléments non ordonnée,
et non nécessairement distincts.
Les combinaisons simples avec répétitions
ont une grande importance pour le test statistique de Wald-Wolfowitz
utilisée en économie et biologique que nous étudierons
dans le chapitre de Statistiques. Introduisons ce type de combinaison directement avec
un exemple et une approche ingénieuse que l'on doit (du
moins c'est ce qui ce dit...) au physicien prix Nobel de physique
1938: Enrico
Fermi.
Considérons {a, b, c, d, e, f} un
ensemble ayant un nombre n d'éléments égal à 6
et dont nous tirons un nombre p égal à 8.
Nous souhaiterions calculer le nombre de combinaisons avec
répétitions
des éléments
d'un ensemble de départ de
cardinal 6 dans une ensemble d'arrivée de cardinal 8.
Envisageons, par exemple, les trois combinaisons
suivantes:
(6.125)
où comme l'ordre des éléments
n'intervient pas, nous avons regroupé les éléments
afin de faciliter la lecture. Représentons maintenant tous
les éléments ci-dessus par un même
symbole: "0" et séparons les groupes constitués
d'un même élément
par des barres (c'est là l'astuce d'Enrico Fermi). Ainsi,
lorsqu'un ou plusieurs éléments
ne figurent pas dans une combinaison, nous noterons tout de même
les barres de séparation (correspondant au nombre d'éléments
absents + la séparation du groupe). Les trois combinaisons ci-dessus
s'écrivent alors:
(6.126)
Nous voyons ci-dessus que dans chaque cas, il a y
huit "0" (logique...) mais surtout qu'il y a toujours
cinq "|". Le nombre de combinaisons avec répétitions
des 6 éléments de l'ensemble de départ à celui
d'arrivée de 8
éléments est donc égal au nombre de permutations
avec repetitions
de 8+5=13 éléments, donc:
(6.127)
Nous remarquons que dans le cas général
le nombre de combinaisons avec répétitions sans prise en compte
de l'ordre s'écrit alors:
(6.128)
Ce qu'il est de tradition de noter:
(6.129)
Nous remarquons par ailleurs que:
(6.130)
Soit au final:
(6.131)
Ce que suivant le context, nous notons aussi:
(6.132)
Pour résumer:
Type |
Expression |
Arrangement simple avec répétitions
(noté selon
ISO 80000-2:2009)
|
|
Arrangement simple sans répétitions
(noté selon
ISO 80000-2:2009) |
|
Permutation simple sans répétitions |
|
Permutation simple avec répétitions |
|
Combinaison simple sans répétitions: cas de
l'arrangement simple sans répétitions où l'ordre
n'est pas pris en compte |
|
Combinaison simple avec répétitions: cas
de permutation simple avec répétitions
où l'ordre
n'est pas pris en compte
(noté selon
ISO 80000-2:2009)
|
|
Tableau: 28.2 - Résumé des cas possibles 
CHAÎNES DE MARKOV
Les chaînes de Markov sont des outils statistiques et probabilistes
simples et puissants mais dont la forme de présentation
mathématique
prête parfois
à l'horreur.... Nous allons tenter ici de simplifier un maximum
les notations pour introduire cet outil formidable très
utilisé au
sein des entreprises pour gérer la logistique, les files
d'attentes aux centrales d'appel ou aux caisses de magasins jusqu'à la
théorie
de la défaillance pour la maintenance préventive,
en physique statistique ou en génie biologique (et la liste
est encore longue et pour plus de détails le lecteur pourra
se reporter aux chapitres concernés
disponibles sur le site...).
Définitions:
D1. Nous noterons un
processus probabiliste fonction du temps dont la valeur
à chaque instant dépend de l'issue d'une expérience
aléatoire.
Ainsi,
à chaque instant t, X(t) est donc
une variable aléatoire que nous désignons par "processus
stochastique" (pour plus de détails dans le cadre de
finance, voir le chapitre d'Économie).
D2. Si nous considérons un temps discret, nous notons alors un
"processus stochastique à temps discret".
D3. Si nous supposons
en outre que les variables aléatoires ne
peuvent prendre qu'un ensemble discret de valeurs nous parlons
alors de "processus à temps discret
et
à espace discret".
Remarque: Il
est tout à fait possible comme dans l'étude du télétrafic
(cf. chapitre Techniques De Gestion) d'avoir un processus à temps
continu et à espace
d'états
discrets.
Définition: est
une "chaîne de Markov" si
et seulement si:
(6.133)
en d'autres termes (c'est très simple!) la probabilité pour
que la chaîne soit dans un certain état à la n-ème étape
du processus ne dépend que de l'état du processus à l'étape n-1
et pas des étapes précédentes!
Remarque: Done en
probabilités un processus stochastique vérifie la
propriété markovienne ci-dessus si et seulement
si la distribution conditionnelle de probabilité des états
futurs, étant
donné l'instant présent,
ne dépend que de ce même état présent et
pas des états passés.
Un processus qui possède cette propriété est
aussi appelé "processus
de Markov".
Définition: Une "chaîne
de Markov homogène" est
une chaîne telle que la probabilité qu'elle a pour
passer dans un certain
état à la n-ième étape soit
indépendante
du temps. En d'autres termes, la loi de probabilité caractérisant
la prochaine étape
ne dépend pas du temps (de l'étape précédente),
et en tout temps la loi de probabilité de la chaîne est toujours
la même
pour caractériser la transition à l'étape
en cours.
Nous pouvons alors définir (réduire) la loi de "probabilité
de transition" d'un état i vers un état j
par:
(6.134)
Il est alors naturel de définir la "matrice
de transition" ou "matrice
stochastique":
(6.135)
comme la matrice qui contient donc tous les probabilités
possibles de transitions des états d'un graphe d'états
orienté.
Les chaînes de Markov peuvent être représentées
graphiquement sous la forme d'un graphe orienté G (cf.
chapitre de Théorie Des Graphes) appelé parfois "automate" ayant
pour sommet les points (états) i et pour arêtes
les couples orientés
(i, j).
Nous associons alors à chaque
composante un arc orienté et
sa probabilité de transition.
Exemple:

Figure: 6.17 - Exemple générique d'une chaîne de Markov
Ainsi, dans l'exemple du graphe orienté ci-dessus, les
seules transitions permises par les 4 états
(matrice )
ci-dessus sont celles indiquées par les flèches.
Ce qui fait que la matrice de transition se simplifie alors en:
(6.136)
où le lecteur remarquera que nous avons la propriété triviale
(par construction!) que la somme des termes (probabilités) d'une
ligne de la matrice P est
toujours unitaire (et donc que la somme des termes d'une colonne
de la transposée de la matrice P est toujours
unitaire aussi):
(6.137)
et que la matrice est positive (ce qui signifie que tous ces
termes sont positifs ou nuls).
Remarque: Se rappeler que la somme
des probabilités des colonnes obtenues est toujours égale à 1
pour la transposée de la matrice stochastique!!
L'analyse
du régime transitoire (ou: promenade aléatoire)
d'une chaîne
de Markov consiste
à déterminer (ou à imposer à!) la matrice-colonne
(vecteur) p(n)
d'être
dans un état donné à la n-ième étape
de la promenade:
(6.138)
avec la somme des composantes qui vaut évidemment toujours
1 (car la somme des probabilités de se trouver dans un quelconque
des sommets du graphe à un moment/étape donné(e)
doit être égale à 100%).
Nous appelons fréquemment cette matrice-colonne "vecteur
stochastique" ou "mesure
de probabilité sur le sommet i".
Démonstration:
Démontrons que la probabilité de ce vecteur stochastique
est effectivement toujours unitaire.
Si p(n) est un vecteur stochastique, alors son
image:
(6.139)
l'est aussi. Effectivement, car:
(6.140)
est une somme de termes positifs ou nuls. De plus, nous trouvons:
(6.141)
C.Q.F.D.
Ce vecteur de probabilités, dont les composantes sont
positives ou nulles, dépend
(c'est assez intuitif) de la matrice de transition P et
du vecteur de probabilités initiales p(0).
Bien que cela soit démontrable (théorème
de Perron-Frobenius) le lecteur pourra vérifier par un cas
pratique (informatisé ou
non!) que si nous choisissons un vecteur d'état p(n)
quelconque alors il existe pour toute matrice stochastique P un
vecteur unique de probabilité noté traditionnellement tel
que:
(6.142)
Une telle mesure de probabilité vérifiant
la relation précédente est appelée une "mesure
invariante" ou "mesure
stationnaire" ou encore "mesure
d'équilibre" qui représente l'état
d'équilibre
du système. En termes d'algèbre
linéaire (voir chapitre du même nom), pour la valeur propre
1, est
un vecteur propre de P (cf. chapitre
d'Algèbre Linéaire).
Nous en verrons un exemple trivial dans le chapitre
de Théorie des Graphes qui sera redéveloppé sous
forme détaillée
et complète ainsi que dans le chapitre de Théorie
Des Jeux Et De La Décision dans le cadre de la pharmaco-économie.
Mais signalons également
que les chaînes
de Markov sont également utilisées le domaine
de la casse de mots de passe informatiques
en météorologie:

Figure: 6.18 - Exemple concret très simpliste d'une chaîne de Markov
ou dans le domaine médical, financier (MCMC), des transports,
du marketing, etc.
Signalons également une égalité trivial à laquelle les mathématicien
auraient donné le nom "d'équation
de Chapman-Kolmogorov". Il s'agit simple de l'égalité suivante
obtenue par récurrence (qui permet de gagner beaucoup de temps
en termes de calculs appliqués):
(6.143)
Dans le domaine du language, à partir de l'analyse fréquentielle
de séquence de mots, les ordinateurs arrivent à construire
aussi des chaînes de Markov et donc à proposer une
sémantique plus correcte
lors
de
corrections
grammaticales informatisées ou de transcription de écrite
de présentations
orales.
Enfin pour clore, donnons quelques définitions de vocabulaire
complémentaires courantes que l'on retrouvera dans différentes
chapitres comme celui de Techniques de Gestion ou de Génie
Industriel.
Définitions:
D1. Une chaîne de Markov est dite "chaîne
de Markov irréductible"
si tous les états sont liés aux autres (c'est le
cas de la chaîne dans la figure ci-dessus).
D2. Une chaîne de Markov est dite "chaîne
de Markov absorbante"
si un quelconque des états de la chaîne absorbe les
transitions (donc rien n'en sort pour dire simplement les choses!).

- Probabilités et statistiques,
J. Istas, Éditions
Dunod, ISBN10: 2729879889 (166 pages) - Imprimé en 2000
|