|

THÉORIE
DE LA DÉMONSTRATION |
NOMBRES | OPÉRATEURS
ARITHMÉTIQUES
|
THÉORIE DES NOMBRES | THÉORIE
DES ENSEMBLES | PROBABILITÉS
| STATISTIQUES
Dernière mise-à-jour de ce chapitre:
31.01.2012 22:43
Version: 2.4 Revision 10 | Rédacteur: Vincent Isoz |
Avancement: ~90%
vues depuis le 01.01.2012: 286
LISTE DES SUJETS TRAITÉS SUR CETTE PAGE | DISCUTER
DE CETTE PAGE
Le calcul des probabilités s'occupe des
phénomènes
aléatoires (dits plus esthétiquement: "processus
stochastiques" lorsqu'ils
sont dépendants du temps), c'est-à-dire de phénomènes
qui ne mènent
pas toujours à la
même
issue et qui peuvent être étudiés grâce
aux nombres et à leurs
conséquences et apparitions. Néanmoins,
même
si ces phénomènes ont des issues variées,
dépendant du hasard,
nous observons cependant une certaine régularité statistique.
Définitions: Il existe plusieurs manières de définir
une probabilité.
Principalement, nous parlons de:
D1. "Probabilité expérimentale ou inductive" qui
est la probabilité déduite de toute la population
concernée.
D2. "Probabilité théorique ou déductive" qui
est la probabilité connue grâce à l'étude
du phénomène sous-jacent sans expérimentation.
Il s'agit donc d'une connaissance "a priori" par
opposition à la définition précédente
qui faisait plutôt référence à une notion
de probabilité "à posteriori".
Comme il n'est pas toujours possible de déterminer des
probabilités a priori, nous sommes souvent amenés à réaliser
des expériences. Il faut donc pouvoir passer de la première à la
deuxième solution. Ce passage est supposé possible
en termes de limite (avec une population dont la taille tend vers
la taille de la population réelle).
La modélisation formelle par le calcul des probabilités a été inventée
par A.N. Kolmogorov dans un livre paru en 1933. Cette modélisation
est faite à partir de l'espace de probabilités (U, A, P)
que nous définirons de manière un peu complète plus loin
et que nous pouvons relier à la
théorie
de la mesure (voir chapitre du même nom).
Remarques: Si vous avez un professeur
ou un formateur qui ose vous enseigner les statistiques et probabilités
avec des exemples basés
sur des jeux de hasard (cartes, dés, allumette, pile ou
face, etc.) débarrassez-vous en ou dénoncez-le à qui
de droit car cela signifierait qu'il n'a aucune expérience
pratique du domaine et qu'il va vous enseigner n'importe quoi et
n'importe comment (normalement
les exemples
devraitent être basés sur l'industrie, l'économie
ou la R&D, bref dans des domaines utilités tous les
jours par les entreprises mais surtout pas sur des jeux de hasard...!).
UNIVERS
DES ÉVÉNEMENTS
Définitions:
D1.
L'univers des événements, ou des "observables", U est
l'ensemble de toutes les issues (résultats) possibles, appelées
"événements élémentaires",
qui se présentent
au cours d'une épreuve
aléatoire
déterminée.
L'univers peut être fini (dénombrable) si les événements élémentaires
sont en nombre fini ou continu (non dénombrable) s'ils
sont infinis.
D2. Un "événement"
quelconque A est
un ensemble d'événements élémentaires
et constitue une partie de l'univers des possibles U.
Il est possible qu'un événement
ne soit constitué que d'un seul événement élémentaire.
Exemple:
Considérons l'univers de tous les groupes sanguins possible,
alors l'événement A "l'individu est de rhésus positif" est
représenté par:
(6.1)
alors que l'événement B "l'individu est donneur universel" est
représenté par:
(6.2)
qui constitue donc un événement élémentaire.
D3.
Soit U
un univers et A un événement, nous disons que l'événement
A "à lieu" (ou "se réalise") si lors
du déroulement de l'épreuve se présente l'issue i et
que .
Dans le cas contraire, nous disons que A "n'a pas
lieu".
D4.
Le sous-ensemble vide
de U
s'appelle "événement impossible".
En effet, si lors de l'épreuve l'issue i
se présente, nous avons toujours
et
l'événement
n'a donc jamais lieu.
Si U est fini, ou infini dénombrable,
tout sous-ensemble de U est un événement,
ce n'est plus vrai si U est non dénombrable (nous
verrons dans le chapitre de Statistiques pourquoi).
D5.
L'ensemble U
s'appelle aussi "événement certain".
En effet, si lors de l'épreuve
l'issue i
se présente, nous avons toujours
(car U
est l'univers des événements). L'événement U
a donc toujours lieu.
D6.
Soit A et B
deux sous-ensembles de U.
Nous savons que les événements et
sont
tous deux des sous-ensembles de U
donc des événements aussi respectivement conjoints et disjoints.
Si deux événements A et B
sont tels que :
(6.3)
les
deux événements ne peuvent pas être réalisables pendant la même
épreuve, nous disons alors qu'ils sont des "événements
incompatibles".
Sinon, si:
(6.4)
les
deux événements peuvent être réalisables dans la même épreuve
(possibilité
de voir un chat noir au moment où on passe sous une échelle par
exemple), nous disons inversement qu'ils sont des "événements
indépendants".
AXIOMATIQUE DE KOLMOGOROV
La
probabilité d'un événement sera en quelque sorte le répondant de
la notion de fréquence d'un phénomène aléatoire, en d'autres termes,
à chaque événement nous allons attacher un nombre réel, appartenant
à l'intervalle [0,1], qui mesurera sa probabilité (chance) de réalisation.
Les propriétés des fréquences que nous pouvons mettre en évidence
lors d'épreuves diverses nous permettent de fixer les propriétés
des probabilités.
Soit U un univers. Nous disons que nous définissons une
probabilité sur les événements de U si à tout événement A
de U nous associons un nombre ou une mesure P(A),
appelé "probabilité a priori
de l'événement A" ou "probabilité marginale
de A".
A1.
Pour tout événement A:
(6.5)
Ainsi,
la probabilité de tout événement est un nombre réel compris
entre 0 et 1 inclus (c'est du bon sens humain...).
A2. La
probabilité de l'événement certain ou de l'ensemble (somme) des événements
possibles est égale à 1:
(6.6)
A3.
Si sont
deux événements incompatibles (disjoints), alors:
(6.7)
la probabilité de la réunion ("ou") de deux événements
incompatibles est donc égale à la somme de leurs probabilités
(loi d'addition). Nous parlons alors de "probabilité disjointe".
Par exemple, si nous considérons que la probabilité dans
une région donnée d'avoir sur 50 ans un tremblement de
terre majeur est de 5% et que d'avoir sur la même période une inondation
majeure est 10%. Nous souhaiterions savoir qu'elle est la probabilité
qu'une centrale nucléaire rencontre les deux événements pendant
la même période en considérant qu'ils peuvent avoir lieu en
même temps. Nous avons alors la probabilité qui est la somme des
deux probabilités ce qui fait 15%...
Nous retrouverons un exemple
de ce genre de probabilité disjointe
dans le chapitre de Génie
Industriel dans la méthode AMDEC pour l'analyse de pannes
des systèmes à structure
complexe.
Autrement dit sous forme
plus générale si est
une suite d'évènements disjoints deux à deux
( et ne
peuvent pas se produire en même
temps si )
alors:
(6.8)
Nous parlons alors de "σ-additivité" car
si nous regardons de plus près les trois axiomes ci-dessus
la mesure P forme une σ-algèbre (cf.
chapitre de Théorie de la Mesure).
A l'opposé, si les événements
ne sont pas incompatibles (ils se superposent), nous avons comme
probabilité qu'au moins un des deux ait lieu:
(6.9)
Ceci signifie que la probabilité pour que l'un au moins
des évènements A ou B se réalise
est égale à la
somme des probabilités pour que se réalise A et
pour que se réalise B, moins la probabilité pour
que A et
B se réalisent simultanément (nous démontrerons
plus loin que cela est simplement équivalent à la
probabilité que les deux n'aient pas lieu en même
temps!).
Par exemple, si nous considérons que la probabilité dans
une région donnée d'avoir sur 50 ans un tremblement
de terre majeur est de 5% et que d'avoir sur la même période
une inondation majeure est 10%. Nous souhaiterions savoir qu'elle
est la probabilité qu'une centrale nucléaire rencontre
au moins un des deux événements pendant la même
période
en considérant qu'ils ne peuvent avoir lieu en même
temps. Nous avons alors la probabilité qui se calcule à
partir de la relation précédente et qui donne alors
14.5%...
Et donc s'ils sont incompatibles
nous avons et
nous retrouvons alors bien:
(6.10)
Une conséquence immédiate
des axiomes (A2) et (A3) est la relation entre les probabilités
d'un événement A et son complémentaire,
noté :
(6.11)
Soit U un univers comportant un nombre fini n d'issues
possibles:
(6.12)
où les événements:
(6.13)
sont appelés "événements élémentaires".
Lorsque ces événements ont même probabilité,
nous disons qu'ils sont "équiprobables".
Dans ce cas, il est très facile de calculer leur probabilité.
En effet, ces événements étant par définition
incompatibles entre eux à ce niveau de notre discours, nous avons
en vertu de l'axiome 3 des probabilités:
(6.14)
mais puisque:
(6.15)
et que les probabilités du membre de droite sont par hypothèse équiprobables,
nous avons:
(6.16)
Définition:
Si A et B
sont indépendants (ou mutuellement exclusifs), nous
savons que ,
alors (très
important en statistiques!):
(6.17)
la probabilité de l'intersection ("et") de deux événements
indépendants est égale au produit de leurs probabilités (loi de
multiplication). Nous parlons alors de "probabilité
conjointe" (c'est le cas le plus fréquent).
Par exemple, si nous considérons que la probabilité dans
une région donnée d'avoir sur 50 ans un tremblement
de terre majeur est de 5% et que d'avoir sur la même période
une inondation majeure est 10%. Nous souhaiterions savoir qu'elle
est la probabilité qu'une centrale nucléaire rencontre
les deux événements en même temps pendant la
même
période
en considérant qu'ils ne peuvent avoir lieu en même
temps. Nous avons alors la probabilité qui se calcule à partir
de la relation précédente et qui donne alors
0.05%...
Autrement dit sous forme
plus générale, les événements
sont indépendants si la probabilité de l'intersection
est le produit des probabilités:
(6.18)
Remarque: Attention à ne pas confondre "indépendants"
et "incompatibles"!
Grâce à cette définition, nous pouvons démontrer
que la probabilité pour que soit A ou soit B ait
lieu (donc au moins un des deux mais pas les deux en même
temps), est simplement égale à... la
probabilité que
les deux en même temps n'aient pas lieu:
(6.19)
Nous pouvons aussi à l'aide de cette dernière
définition
déterminer la probabilité qu'un seul des deux événements
ait lieu:
(6.20)
Par exemple, si nous considérons que la probabilité dans
une région donnée d'avoir sur 50 ans un tremblement
de terre majeur est de 5% et que d'avoir sur la même période
une inondation majeure est 10%. Nous souhaiterions savoir qu'elle
est la probabilité qu'une centrale nucléaire rencontre
exactement un des deux événements pendant la même
période en considérant qu'ils ne peuvent avoir lieu
en même temps. Nous avons alors la probabilité qui
se calcule à partir de la relation précédente
et qui donne alors 14%...
Il y a un domaine courant dans l'industrie dans
lequel sont appliqués fréquemment les quatre relations suivantes:
(6.21)
Il s'agit de "l'analyse
par arbres d'erreurs" ou
"analyse par arbres probabilistes" qui
est utilisée pour analyser
les raisons possibles de défaillance d'un système
quel qu'il soit (industriel, administratif ou autre).
PROBABILITÉS
CONDITIONNELLES
Que pouvons-nous déduire sur la probabilité d'un évènement B
sachant qu'un évènement A est réalisé? En d'autres termes,
nous voulons savoir s'il est possible de définir la probabilité d'un événement
conditionnellement (relativement) à un autre événement.
Ce type de probabilité est appelée "probabilité
conditionnelle" ou "probabilité
à posteriori" de B sachant A,
et se note dans le cadre de l'étude des probabilités
conditionnelles:
P(B / A)
(6.22)
et souvent dans la pratique pour éviter la
confusion avec une possible division:
P(B | A)
(6.23)
Nous avons aussi le cas:
P(A | B)
(6.24)
qui
est appelé "fonction
de vraisemblance de A" ou encore "probabilité a priori" de A sachant B (cas
beaucoup moins intéressant....).
Historiquement, le premier mathématicien à avoir utilisé correctement
la notion de probabilité
conditionnelle fut Thomas Bayes (1702-1761). Aussi parlons-nous
souvent de Bayes ou de bayésien dès que des probabilités
conditionnelles sont en jeu: formule de Bayes, statistique bayésienne...
La notion
de probabilité conditionnelle que nous allons introduire est beaucoup
moins simple qu'elle ne paraît a priori et les problèmes de conditionnement
sont une source inépuisable d'erreurs en tout genre (il existe
de fameux paradoxes sur le sujet).
Commençons d'abord par un exemple simpliste: Supposons
que nous ayons deux dés.
Imaginons maintenant que nous ayons lancé seulement le premier
dé. Nous voulons
savoir quelle est la probabilité
qu'en lançant le second dé, la somme des deux chiffres vaille
une certaine valeur minimale. Ainsi, la probabilité d'obtenir
cette valeur minimale fixée
sachant la valeur du premier dé
est totalement différente de la probabilité d'obtenir
cette même
valeur minimale en lançant
les deux dés en même temps. Comment calculer cette
nouvelle probabilité?
Formalisons
la démarche:
Après le lancer du premier dé, nous
avons:
(6.25)
Soit l'hypothèse que ,
nous pressentons
que P(B / A) doit être proportionnel à P(B),
la constante de proportionnalité étant
déterminée par la normalisation:
(6.26)
Soit maintenant
(B est inclus dans le complémentaire de A donc
les événements sont incompatibles). Il est assez
intuitif que sous l'hypothèse précédente nous
ayons:
(6.27)
Ceci
nous mène aux définitions suivantes des probabilités à posteriori
et respectivement à priori:
et
(6.28)
Ainsi, le fait de savoir que B est réalisé réduit
l'ensemble des résultats possibles de U à B.
A partir de là, seules les éventualités
de ont
une importance. La probabilité de A sachant B et
inversement (par symétrie) doit donc être proportionnelle à !
Le coefficient de proportionnalité qui est le dénominateur
permet d'assurer l'événement certain. Effectivement,
si les deux événements A et B sont
indépendants (pensez à l'histoire du chat noir et de
l'échelle
par exemple), nous avons donc:
(6.29)
et nous voyons alors P(B / A) qui
vaut P(B) et donc A n'apporte
rien sur B et réciproquement!! Donc en d'autres
termes, si A et B sont indépendants nous avons:
et (6.30)
Une autre façon assez intuitive pour voir les choses est de se
représenter la mesure de probabilité P comme une mesure
d'aires de sous-ensembles
de .
En effet, si A et B sont deux sous-ensembles de d'aires
respectives P(A) et P(B) alors à la question de savoir
qu'elle est la probabilité qu'un point du plan appartienne à B sachant
qu'il appartient à A il est assez évident de répondre que
cette probabilité est donnée par:
(6.31)
Indiquons aussi que la définition des
probabilités conditionnelles s'utilise souvent sous la forme
suivante:
(6.32)
appelée "formule
des probabilités composées". Ainsi, la
probabilité à posteriori de B sachant A peut
donc aussi s'écrire sous la forme:
(6.33)
Exemple:
Supposons une maladie comme la méningite. La probabilité de
l'avoir sera notée (chiffre
arbitraire pour l'exemple) et un signe de cette maladie comme le
mal de tête sera noté .
Supposons connue la probabilité à posteriori d'avoir
mal à la
tête
si nous avons une méningite:
(6.34)
Le théorème de Bayes donne alors la probabilité a priori
d'avoir une méningite
si nous avons mal à la tête! :
(6.35)
Pour en revenir à la théorie, notons que nous avons
aussi:
(6.36)
qui est appelée la "formule des probabilités
totales" ou "théorème
des probabilités totales". Mais
aussi, pour tout j,
nous avons le corollaire suivant en utilisant les résultats
précédents:
(6.37)
qui est la forme générale de la "formule
de Bayes" ou "théorème
de Bayes" que nous utiliserons un tout petit peu
en Mécanique Statistique et dans le cadre de l'étude
de la théorie des files d'attentes (cf.
chapitre de Techniques De Gestion). Il
faut savoir que les implications de ce théorème
sont cependant considérables dans le quotidien, dans
la médecine,
dans l'industrie et dans le domaine du Data Mining informatique.
Nous retrouvons souvent dans la littérature de nombreux
exemples d'applications de la relation précédente
avec uniquement deux issues possibles B
relativement à l'événement A. Dès
lors nous retrouvons la formule de Bayes écrite sous la
forme suivante pour chacune des issues:
(6.38)
et remarquons que dans ce cas particulier (des issues
binaires):
(6.39)
ce qui est un résultat intuitif.
Pour les événements binaires, nous
avons aussi (en revenant au théorème des probabilités
totales vu plus haut):
(6.40)
Exemples:
E1. Deux machines et produisent
respectivement 100 et 200 pièces. produit
5% de pièces défectueuses et en
produit 6% (ces valeurs proviennent d'une loi exponentielle!).
Quelle est la probabilité pour
qu'un objet défectueux
ait été fabriqué
par la machine ?
L'événement constaté A est donc la présence d'une pièce
défectueuse et la probabilité recherchée est la probabilité a priori
que celle-ci provienne de la machine .
Nous avons alors:
(6.41)
E2. D'un lot de 10 pièces dont le 30% est défectueux, nous prélevons
sans remise un échantillon de taille 3. Quelle est la probabilité que
la seconde pièce soit bonne (quelle que soit la première)?
Nous avons:
(6.42)
où est
la probabilité que la deuxième soit bonne sachant que la première
est mauvaise et est
la probabilité que la deuxième soit bonne sachant que la première
est bonne. est
donc la probabilité que la première soit mauvaise, la
probabilité que la première soit bonne.
E3. Terminons avec un exemple important dans les entreprises
où les employés doivent plusieurs fois dans leur
carrière passer des examens sous forme de questionnaire à choix
multiples (Q.C.M.). Si un employé répond à une
question de deux choses l'une: soit il connaît la réponse,
soit il la devine. Soit p la probabilité que l'employé connaisse
la réponse et donc 1-p celle qu'il la devine. Nous
admettons que l'employé qui devine répondra correctement
avec une probabilité 1/m où m est
le nombre de réponses
proposées. Quelle est alors la probabilité qu'un
employé connaisse la réponse à une question à 5
choix s'il y a répondu correctement?
Soient B et A respectivement les événements "l'employé connaît
la réponse" et "l'employé répond
correctement à la question". Alors la probabilité à priori
qu'un employé connaisse la réponse à une question
qu'il a répondu correctement est:
(6.43)
L'analyse bayésienne fournit donc un outil puissant de
formalisation du raisonnement dans l'incertain et les exemples
que nous avons montrés illustrent surtout à quel
point cet outil est délicat à employer.
ESPÉRANCE CONDITIONNELLE
Maintenant, passons à la version continue de la probabilité conditionnelle
en abordant le sujet directement avec un exemple particulier (la
théorie
avec le cas général étant indigeste) infiniment important dans
le domaine de statistiques sociales et de la finance quantitative.
Cependant,
ce choix (de l'étude d'un cas particulier) implique que
le lecteur ait lu au préalable le chapitre de Statistiques pour
y étudier les fonctions de distributions continues et plus particulièrement
celle de la loi de Pareto.
Donc voilé le scénario: Souvent, en sciences sociales
ou en économie, nous trouvons dans la littérature spécialisée traitant
des lois de Pareto des affirmations du type suivant (mais quasiment
jamais avec une démonstration détaillée): quel que soit votre revenu,
le revenu moyen de ceux qui ont un revenu supérieur au vôtre est
dans un rapport constant, supérieur à 1, à votre revenu si celui-ci
suit une variable aléatoire de type Pareto. Nous disons alors que
la loi est isomorphe à toute partie tronquée elle-même.
Voyon de quoi il s'agit exactement:
Soit X une variable aléatoire égale au revenu et suivant
une loi de Pareto de densité (cf. chapitre
de Statistiques):
(6.44)
avec .
La phrase commence par "quel que soit votre revenu...",
choisissons donc un revenu quelconque
À présent nous devons calculer "le revenu moyen de ceux qui
ont un revenu supérieur à ".
Il s'agit donc de calculer l'espérance (le revenu moyen) d'une
nouvelle variable aléatoire Y qui est égale à X mais
restreinte à la population des personnes ayant un revenu supérieur à .
(6.45)
La fonction de répartition de Y est donnée par:
(6.46)
Cette expression est naturellement nulle si .
Bon, jusqu'à maintenant nous n'avons fait que du vocabulaire.
D'abord rappelons que la relation de probabilité conditionnelle
suivante:
(6.47)
pour nous
avons la loi conditionnelle:
(6.48)
Avant d'aller plus loin, il faut être conscient que le numérateur
et dénominateur sont indépendants mais que l'ensemble doit être
toutefois considéré comme la réalisation d'une seule et unique
variable aléatoire que nous noterons Y. Par ailleurs, seulement
le numérateur est dépendant d'une variable. Le dénominateur
peut lui être considéré comme une constante de normalisation.
Nous voyons donc que la densité de Y est donnée par la
fonction:
(6.49)
À présent nous pouvons calculer l'espérance de Y:
(6.50)
Sachant que:
(6.51)
Nous avons au final:
(6.52)
E(Y) représente donc le revenu moyen de ceux qui
ont un revenu supérieur à et
comme on peut le constater de l'égalité ci-dessus il est bien dans
un rapport constant, supérieur à 1, à votre revenu .
Évidemment, nous pourrions aussi calculer la variance conditionnelle
(in extenso l'écart-type conditionnel). Cela viendra peut-être
un jour...
RÉSEAUX BAYÉSIENS
Les réseaux bayésiens sont simplement une représentation graphique
d'un problème de probabilités conditionnelles qui permettent de
mieux visualiser l'interaction entre les différentes variables
lorsque que celles-ci commencer à être en grande nombre.
C'est une technique de plus en plus utilisée dans le décisionnel
assisté par logiciel (Data Mining), l'intelligence artificielle
(AI) et également
dans l'analyse et la gestion du risque (norme ISO 31010).
Suite à venir...
MARTINGALES
Une martingale en probabilités (il en existe une autre dans les
processus stochastiques) est une technique permettant d'augmenter
les chances de gain aux jeux
de
hasard tout
en respectant
les règles
de jeu. Le principe dépend complètement du type de jeu qui en est
la cible, mais le terme est accompagné d'une aura de mystère qui
voudrait que certains joueurs connaissent des techniques secrètes
mais efficaces pour tricher avec le hasard. Par exemple, de nombreux
joueurs (ou
candidats au jeu) cherchent LA martingale qui permettra de battre
la banque dans les jeux les plus courants dans les casinos (des
institutions dont la rentabilité repose presque entièrement sur
la différence - même faible - qui existe entre les chances de gagner
et celles de perdre).
De nombreuses martingales ne sont que le rêve de leur auteur,
certaines sont en fait inapplicables, quelques-unes permettent
effectivement de tricher un peu. Les jeux d'argent sont en général
inéquitables: quel que soit le coup joué, la probabilité de gain
du casino (ou de l'État dans le cas d'une loterie) est plus importante
que celle du joueur. Dans ce type de jeu, il n'est pas possible
d'inverser les chances, seulement de minimiser la probabilité de
ruine du joueur.
L'exemple le plus courant est la martingale de la roulette, elle
consiste à jouer une chance simple à la roulette (noir ou rouge,
paire ou impaire) de façon à gagner, par exemple, une unité dans
une série de coups en doublant sa mise si l'on perd, et cela jusqu'à ce
que l'on gagne. Exemple: le joueur mise 1 unité sur le rouge,
si le rouge sort, il arrête de jouer et il a gagné 1 unité (2 unités
de gain moins l'unité de mise), si le noir sort, il double sa mise
en pariant 2 unités sur le rouge et ainsi de suite jusqu'à ce qu'il
gagne.
Ayant une chance sur deux de gagner, il peut penser qu'il va
finir par gagner ; quand il gagne, il est forcément remboursé de
tout ce qu'il a joué, plus une fois sa mise de départ.
Cette martingale semble être sûre en pratique. À noter que sur
le plan théorique, pour être sûr de gagner, il faudrait avoir la
possibilité de jouer au cas où un nombre de fois illimité. Ce qui
présente des inconvénients majeurs:
Cette martingale est en fait limitée par les mises que le joueur
peut faire car il faut doubler la mise à chaque coup tant que l'on
perd: 2 fois la mise de départ, puis 4, 8, 16.... s'il perd 10
fois de suite, il doit pouvoir avancer 1024 fois sa mise initiale
pour la 11e partie ! Il faut donc beaucoup d'argent pour gagner
peu.
Les roulettes comportent un "0" qui n'est ni rouge
ni noir. Le risque de perdre lors de chaque coup est ainsi plus
grand que 1/2...
De plus, pour paralyser cette stratégie, les casinos proposent
des tables de jeu par tranche de mise: de 1 à 100.-, de 2 à 200.-,
de 5 à 500.-, ... (bon ensuite voir s'il est possible de changer
de table...). Impossible donc d'utiliser cette méthode sur
un grand nombre de coups, ce qui augmente le risque de tout perdre.
Le black jack est un jeu qui possède des stratégies gagnantes: plusieurs techniques de jeu, qui nécessitent généralement de
mémoriser les cartes, permettent de renverser les chances en faveur
du joueur. Le mathématicien Edward Thorp a ainsi publié en 1962
un livre qui fut à l'époque un véritable best-seller. Mais toutes
ces méthodes demandent de longues semaines d'entraînement et sont
facilement décelables par le croupier (les brusques changements
de montant des mises sont caractéristiques). Le casino a alors
tout loisir d'écarter de son établissement les joueurs en question.
Il
faut noter qu'il existe des méthodes assez évoluées. L'une
d'elles repose sur les combinaisons les moins jouées. Dans les
jeux où le gain dépend du nombre de joueurs gagnants (Loto...),
jouer les combinaisons les moins jouées optimisera les gains. C'est
ainsi que certaines personnes vendent des combinaisons qui seraient
statistiquement très rarement utilisées par les autres joueurs.
Partant de ce raisonnement, on peut encore conclure qu'un joueur
qui aurait réussi à déterminer ainsi les combinaisons statistiquement
les moins jouées, afin d'optimiser son espérance de gain ne sera
en fait certainement pas le seul joueur à avoir obtenu par l'analyse
ces fameuses combinaisons, et tous ces joueurs risquent donc finalement
d'être très déçus par leurs gains s'il s'avérait que cette combinaison équiprobable
sorte au tirage! Cela revient à dire que les numéros en théorie
les moins joués sont en fait surjoués par combinaisons, le mieux
serait peut-être de réaliser un savant mélange de numéros sous-joués
et de numéros surjoués pour obtenir les combinaisons idéales, qui
peuvent par ailleurs être observées dans les tirages passés lorsqu'il
n'y a pas eu de gagnant. Une autre conclusion à tout cela est peut-être
que le mieux est encore de jouer des combinaisons aléatoires qui
ont finalement moins de chance d'être également choisies par les
joueurs qui incorporent un facteur humain et harmonieux dans le
choix de leurs nombres.
ANALYSE
COMBINATOIRE
"L'analyse
combinatoire" (techniques de dénombrement) est
le domaine de la mathématique
qui s'occupe de l'étude de l'ensemble des issues, événements
ou faits (distinguables ou non tous distinguables) avec leurs arrangements
(combinaisons) ordonnés ou non selon
certaines
contraintes
données.
Définitions:
D1. Une suite
d'objets (événements, issues, objets,...) est dite "ordonnée"
si chaque suite composée d'un ordre particulier des objets est
comptabilisée comme une configuration particulière.
D2. Une suite est donc "non ordonnée" si
et seulement si nous intéresse
la fréquence d'apparition des objets indépendamment de leur ordre.
D3. Des objets
(d'une suite) sont dits "distincts" si
leurs caractéristiques
ne permettent pas de les confondre avec des autres objets.
Remarque: Nous avons choisi de mettre l'analyse combinatoire
dans ce chapitre car lorsque nous calculons des probabilités,
nous avons
également assez souvent besoin de savoir quelle est la probabilité
de tomber sur une combinaison ou un arrangement d'événements donnés
sous certaines contraintes.
Il existe plusieurs
types d'arrangements selon les contraintes et les propriétés des
éléments arrangés. Nous allons présenter et démontrer ci-dessous
les 5 cas les plus répandus à partir desquels nous pouvons trouver
(habituellement) tous les autres:
ARRANGEMENTS
AVEC RÉPÉTITION
Définition: Un "arrangement
avec répétition" est une suite ordonnée de longueur m
de n
objets distincts non
nécessairement tous différents dans la suite (soit avec répétition
possible!).
Soient A et
B deux
ensembles finis de cardinaux respectifs m,
n
tels que trivialement il y ait m façons
de choisir un objet dans A (de
type a)
et n façons
de choisir un objet dans B (de
type b).
Nous avons vu dans le chapitre de Théorie
Des Ensembles que si A et B sont
disjoints, que:
(6.53)
Nous
en déduisons donc les propriétés suivantes:
P1. Si un objet ne peut être
à la fois de type a et
de type b et
s'il y a m façons
de choisir un objet de type a et
n façons
de choisir un objet de type b,
alors il y a façons
de choisir un objet de type a ou
de type b.
P2. Si nous pouvons choisir
un objet de type a de
m façons
puis un objet de type b de
n façons,
alors il y a selon le produit cartésien de deux ensembles (cf.
chapitre de Théorie
Des Ensembles) :
(6.54)
de manière choisir un seul et unique
objet de type a puis
un objet de type b.
Avec les mêmes notations,
choisir une fonction de A dans
B,
c'est choisir (dans le cas général) pour chaque élément
de A,
son unique image parmi les n éléments
de B.
Il y a donc n façons
de choisir l'image du
premier élément de
A,
puis aussi n façons
de choisir l'image
du deuxième, ..., puis n façons
de choisir l'image
du m-ème. Le
nombre d'applications totales possibles de A dans
B est
donc égal au produit de m égaux
à n.
Ainsi, nous avons:
(6.55)
où est
l'ensemble des applications de A dans
B. La progression du nombre de possibilités est donc géométrique
(et non "exponentielle" comme il est souvent dit à tort!).
Ce résultat mathématique est assimilable au résultat
non-ordonné (un arrangement dont
l'ordre des éléments de la suite n'est pas pris
en compte) de m tirages
dans un sac contenant n boules
différentes avec remise après chaque tirage.
Exemples:
E1. Combien de "mots" (ordonnés) de 7 lettres
pouvons-nous former à partir d'un alphabet de 24 lettres distinctes
(très
utile pour connaître le nombre d'essais pour trouver un
mot de passe par exemple)? La solution est:
(6.56)
E2. Combien de groupes d'individus aurons-nous lors d'une votation
sur 5 sujets et où chacun peut être soit accepté, soit rejeté?
La solution (très utilisée dans les entreprises
en Suisse) est:
(6.57)
Une généralisation simple
de ce dernier résultat peut consister dans l'énoncé du problème
suivant:
Si nous disposons de m objets tels
que peut
prendre états
différents alors le nombre de combinaisons possibles est:
(6.58)
Et si nous avons alors
nous retombons sur:
(6.59)
Exemple:
Un graphiste a créé sous le logiciel Adobe Photoshop
une maquette d'une site Internet avec trois en-têtes différentes,
deux variantes pour le corps, quatre variantes pour le fond, six
variantes de menus et trois variantes pour le pied de pages. Le
nombre total de combinaisons (compositions dans le langage du graphiste)
que l'on pourra présenter au client sera de:
(6.60)
PERMUTATIONS
SIMPLES (sans répétition)
Définition: Une "permutation
simple" (appelée anciennement
"substitution") de n
objets distincts est une suite ordonnée (différente) de ces n
objets par définition tous différents dans la suite (sans répétition).
Remarque: Attention à ne pas
confondre le concept de permutation (de n éléments entre
eux) et
d'arrangement (de n éléments parmi m) !
Le nombre de permutations de n éléments peut être
calculé
par récurrence: il y a n places pour un premier élément,
n-1 pour un deuxième élément,
..., et il ne restera qu'une place pour le dernier élément
restant.
Il est dès lors trivial que
nous aurons un nombre de permutations donné par:
(6.61)
Rappelons que le produit:
(6.62)
est appelé "factorielle
de n"
et nous la notons n!
pour .
Il y a donc pour n
éléments distinguables:
(6.63)
permutations possibles. Ce type de calcul peut être par
exemple utile en gestion de projets (calcul du nombre de manière
différentes
de recevoir dans une chaîne de production n pièces
toutes différentes commandées chez des fournisseurs
externes).
Exemple:
Combien de "mots" (ordonnés) de 7 lettres distinctes
sans répétition pouvons-nous former ?
(6.64)
Ce
résultat nous amène à l'assimiler au résultat ordonné (un arrangement
dont
l'ordre des éléments de la suite est pris en compte) du tirage
de toutes les boules différentes d'un sac contenant n boules
distinguables sans remise.
PERMUTATIONS
AVEC RÉPÉTITION
Définition: Lorsque nous
considérons le nombre de permutations ordonnées (différentes) d'une
suite de n
objets distincts tous nécessairement non différents dans une quantité
donnée dans la suite nous parlons de "permutation
avec répétition".
Remarque:Il ne faut pas confondre cette dernière définition
avec
"l'arrangement avec répétition"!
Lorsque certains éléments
ne sont pas distinguables dans une suite d'objets (ils
sont répétitifs dans la suite), alors le nombre d'arrangements
(permutations) que nous pouvons constituer se réduit alors assez
trivialement à un
nombre plus petit que si tous les éléments étaient distinguables.
Soit le
nombre d'objets du type i, avec:
(6.65)
alors, nous notons:
(6.66)
avec le
nombre de permutations possibles (pour l'instant inconnu) avec répétition
(un ou plusieurs
éléments répétitifs dans une suite
d'éléments sont non distinguables
par permutation).
Si chacune des places
occupées par des éléments identiques était occupée par des éléments
différents, le nombre de permutations serait alors à multiplier
par chacun des (cas
précédent).
Il vient alors que nous retombons
sur la factorielle telle que:
(6.67)
alors:
(6.68)
Si les n objets sont tous différents dans la suite,
nous avons alors:
(6.69)
et
nous nous retrouvons bien avec une permutation
simple (sans répétition) telle que:
(6.70)
Il convient de remarquer que les permutations avec
répétition sont en plus petit nombre que celles sans répétition
(évident puisque nous ne prenons pas en compte les permutations
des éléments identiques entre eux!).
Exemple:
Combien de "mots" (ordonnés) pouvons-nous former
avec les lettres du mot "Mississippi":
(6.71)
Ce
résultat nous amène à l'assimiler au résultat
ordonné (une permutation dont
l'ordre des éléments de la suite est pris en compte)
du tirage de n
boules non toutes distinguables d'un sac contenant
boules avec remise limitée pour chaque boule.
ARRANGEMENTS
SIMPLES SANS RÉPÉTITION
Définition: Un "arrangement
simple sans répétition" est une suite ordonnée de p objets
tous distincts pris parmi n objets
distincts avec .
Nous nous proposons donc maintenant de dénombrer les arrangements
possibles de p objets parmi n. Nous noterons le
nombre de ces arrangements.
Il est aisé de calculer et
de vérifier que .
Effectivement,
il existe n façons de choisir le premier objet
et (n-1) façons de choisir le deuxième lorsque nous
avons déjà le premier.
Pour déterminer ,
nous raisonnons alors par récurrence. Nous supposons connu
et nous en déduisons:
(6.72)
Dès lors:
(6.73)
alors:
(6.74)
d'où:
(6.75)
Ce
résultat nous amène à l'assimiler au résultat
ordonné (un arrangement
dont
l'ordre des éléments de la suite est pris en compte)
du tirage de p
boules distinctes d'un
sac contenant n boules
différentes sans remise.
Exemple:
Soit les 24 lettres de l'alphabet, combien de "mots"
(ordonnés) de 7 lettres distinctes pouvons-nous former ?
(6.76)
Le lecteur aura peut-être remarqué que si
nous prenons
nous nous retrouvons avec:
(6.77)
donc nous pouvons dire qu'une permutation simple de n éléments
est comme un arrangement simple sans répétition
avec .
COMBINAISONS
SIMPLES
Définition: Une "combinaison
simple"
ou "choix" est une suite
non-ordonnée
(dont l'ordre ne nous intéresse pas!) de p éléments
tous différents
(pas nécessairement dans le sens visuel du terme!) choisis
parmi n objets
distincts et est par définition
notée sur ce site Internet
et appelée la "binomiale" ou
"coefficient binomial".
Si nous permutons les éléments de chaque arrangement
simple de p éléments
parmi n, nous obtenons toutes les permutations simples
et nous savons qu'il y en a p! d'où en utilisant
la convention d'écriture du présent site internet (contraire à celle
préconisée par la norme ISO 31-11!):
(6.78)
C'est une relation très souvent utilisée
dans les jeux de hasard mais également dans l'industrie
via la loi hypergéométrique
(cf. chapitre de Techniques De Gestion)
ainsi que dans les statistiques d'assez haut niveau comme les statistiques
d'ordre (cf. chapitre de Statistiques).
Remarques:
R1. Nous avons nécessairement par définition 
R2. Selon les auteurs nous inversons l'indice ou le suffixe de C il
faut donc être prudent!
Exemple:
Soit un alphabet de 24 lettres, combien avons-nous de choix de
prendre 7 lettres parmi les 24 sans prendre en compte l'ordre
dans lequel sont triées les lettres:
(6.79)
La même valeur peut être obtenue avec la fonction
COMBIN( ) de MS Excel.
Ce résultat nous amène à l'assimiler au résultat non ordonné (un
arrangement dont
l'ordre des éléments de la suite n'est pas pris en compte)
du tirage de p boules d'un sac contenant n boules
différentes sans remise.
Il existe, relativement
à la binomiale, une autre relation très souvent
utilisée dans de nombreux cas d'études ou également
de manière plus globale en physique ou analyse fonctionnelle.
Il s'agit de la "formule de Pascal":
(6.80)
Démonstration:
(6.81)
Or donc:
(6.82)
et de même :
(6.83)
Ainsi:
(6.84)
C.Q.F.D.

CHAÎNES DE MARKOV
Les chaînes de Markov sont des outils statistiques et probabilistes
simples et puissants mais dont la forme de présentation
mathématique
prête parfois
à l'horreur.... Nous allons tenter ici de simplifier un maximum
les notations pour introduire cet outil formidable très
utilisé au
sein des entreprises pour gérer la logistique, les files
d'attentes aux centrales d'appel ou aux caisses de magasins jusqu'à la
théorie
de la défaillance pour la maintenance préventive,
en physique statistique ou en génie biologique (et la liste
est encore longue et pour plus de détails le lecteur pourra
se reporter aux chapitres concernés
disponibles sur le site...).
Définition: Nous noterons un
processus probabiliste fonction du temps (c'est donc
un processus stochastique) dont la valeur
à chaque instant dépend de l'issue d'une expérience aléatoire.
Ainsi,
à chaque instant t, X(t) est donc une variable
aléatoire.
Si nous considérons un temps discret, nous notons alors un
processus stochastique à temps discret. Si nous supposons en outre
que les variables aléatoires ne
peuvent prendre qu'un ensemble discret de valeurs nous parlons
alors de "processus à temps discret
et
à espace discret".
Remarque: Il
est tout à fait possible comme dans l'étude du télétrafic
d'avoir un processus à temps continu et à espace d'états
discrets.
Définition: est
une "chaîne de Markov" si
et seulement si:
(6.85)
en d'autres termes (c'est très simple!) la probabilité pour
que la chaîne soit dans un certain état à la n-ème étape
du processus ne dépend que de l'état du processus à l'étape n
- 1 et pas des étapes précédentes!
Remarque: En
probabilité un processus stochastique vérifie la
propriété markovienne si et seulement si la distribution conditionnelle
de probabilité des états futurs, étant donné l'instant présent,
ne dépend que de ce même état présent et pas des états passés.
Un processus qui possède cette propriété est donc appelé "processus
de Markov".
Définition: Une "chaîne
de Markov homogène" est
une chaîne telle que la probabilité qu'elle a pour passer
dans un certain
état à la nième étape soit indépendante
du temps. En d'autres termes, la loi de probabilité caractérisant
la prochaine étape
ne dépend pas du temps (de l'étape précédente),
et en tout temps la loi de probabilité à tout moment de
la chaîne est toujours
la même
pour caractériser la transition à l'étape en cours.
Nous pouvons alors définir la loi de "probabilité
de transition" d'un état i vers un état j
par:
(6.86)
Il est alors naturel de définir la "matrice
de transition" ou "matrice
stochastique":
(6.87)
Les chaînes de Markov peuvent être représentées
graphiquement sous la forme d'un graphe orienté G (cf.
chapitre de Théorie Des Graphes) appelé parfois "automate"
ayant pour sommet les points i et pour arêtes les
couples orientés
(i, j).
Nous associons alors à chaque
composante un arc orienté et
sa probabilité
de transition.
Exemple:

Figure: 6.1 - Exemple générique d'une chaîne de Markov
Ainsi, les seules transitions permises par les 4 états (matrice
4x4) sont celles indiquées par les flèches. Ce qui fait que la matrice
de transition s'écrit alors:
(6.88)
où le lecteur remarquera que nous avons la propriété triviale
(par construction!) que la somme des termes d'une ligne de la matrice P est
toujours unitaire (et donc que la somme des termes d'une colonne
de la transposée de la matrice P est toujours
unitaire aussi):
(6.89)
et que la matrice est positive (ce qui signifie que tous ces
termes sont positifs ou nuls).
Remarque: Se rappeler que la somme
des probabilités des colonnes T obtenues est toujours égale à 1
pour la transposée de la matrice stochastique!!
L'analyse
du régime transitoire (ou promenade aléatoire)
d'une chaîne
de Markov consiste
à déterminer (ou à imposer à!) la matrice-colonne
(vecteur) p(n)
d'être
dans un état j à l'étape n (ou en
la n-ème
étape autrement dit...):
(6.90)
avec la somme des composantes qui vaut évidemment toujours
1 (car la somme des probabilités de se trouver dans un quelconque
des sommets du graphe à un moment/étape donné(e)
doit être égale à 100%).
Démonstration:
Si p(n) est un vecteur stochastique, alors son
image:
(6.91)
l'est aussi. Effectivement, car:
(6.92)
est une somme de termes positifs ou nuls. De plus, nous trouvons:
(6.93)
C.Q.F.D.
Nous appelons fréquemment
cette matrice-colonne "vecteur stochastique" ou "mesure
de probabilité
sur le sommet i".
Ce vecteur de probabilités, dont les composantes sont
positives ou nulles, dépend
(c'est assez intuitif) de la matrice de transition P et
du vecteur de probabilités initiales p(0).
Bien que cela soit démontrable (théorème
de Perron-Frobenius) le lecteur pourra vérifier par un cas
pratique (informatisé ou
non!) que si nous choisissons un vecteur d'état p(n)
quelconque alors il existe pour toute matrice stochastique P un
vecteur unique de probabilité noté traditionnellement tel
que:
(6.94)
Une telle mesure de probabilité vérifiant
la relation précédente est appelée une "mesure
invariante" ou "mesure
stationnaire" ou encore "mesure
d'équilibre" qui représente l'état
d'équilibre
du système. En termes d'algèbre
linéaire, pour la valeur propre 1, est
un vecteur propre de P (cf. chapitre
d'Algèbre Linéaire).
Nous en verrons un exemple trivial dans le chapitre
de Théorie des Graphes qui sera redéveloppé sous
forme détaillée
et complète ainsi que dans le chapitre de Théorie
Des Jeux Et De La Décision dans le cadre de la pharmaco-économie.
Mais signalons également
que les chaînes
de Markov sont également utilisées en météorologie
par exemple ou encore dans le casse de mots de passe informatique:

Figure: 6.2 - Exemple concret simpliste d'une chaîne de Markov
ou dans le domaine médical, financier, des transports,
du marketing, etc.
Dans le domaine du language, à partir de d'analyse fréquentielle
de séquence de mots, les ordinateurs arrivent à construire aussi
des chaînes de Markov et donc à proposer une sémantique plus correcte
lors
de
corrections
grammaticales informatisées ou de transcription de écrite de présentations
orales..
|