Sciences.ch (probabilités)

Dernière mise à jour de ce chapitre: 2017-01-31 10:12:29 | {oUUID 1.709}
Version: 3.3 Révision 23 | Avancement: ~90%

vues depuis le 2012-01-01: 9'354

Le calcul des probabilités s'occupe des phénomènes aléatoires (dits plus esthétiquement: "processus stochastiques" lorsqu'ils sont dépendants du temps), c'est-à-dire de phénomènes qui ne mènent pas toujours à la même issue et qui peuvent être étudiés grâce aux nombres et à leurs conséquences et apparitions. Néanmoins, même si ces phénomènes ont des issues variées, dépendant du hasard, nous observons cependant une certaine régularité statistique.

Définitions: Il existe plusieurs manières de définir une probabilité. Principalement, nous parlons de:

D1. "Probabilité expérimentale ou inductive" qui est la probabilité déduite de toute la population concernée.

D2. "Probabilité théorique ou déductive" qui est la probabilité connue grâce à l'étude du phénomène sous-jacent sans expérimentation. Il s'agit donc d'une connaissance "a priori" par opposition à la définition précédente qui faisait plutôt référence à une notion de probabilité "à posteriori".

Comme il n'est pas toujours possible de déterminer des probabilités a priori, nous sommes souvent amenés à réaliser des expériences. Il faut donc pouvoir passer de la première à la deuxième solution. Ce passage est supposé possible en termes de limite (avec une population dont la taille tend vers la taille de la population réelle).

La modélisation formelle par le calcul des probabilités a été inventée par A.N. Kolmogorov dans un livre paru en 1933. Cette modélisation est faite à partir de l'espace de probabilités (U, A, P) que nous définirons plus loin et que nous pouvons relier à la théorie de la mesure (voir chapitre du même nom). Cependant, les probabilités ont été étudiées sur le point de vue scientifique par Fermat et Pascal au milieu du 17ème siècle.

Remarque: Si vous avez un professeur ou un formateur qui ose vous enseigner les statistiques et probabilités avec des exemples basés sur des jeux de hasard (cartes, dés, allumette, pile ou face, etc.) débarrassez-vous en ou dénoncez-le à qui de droit car cela signifierait qu'il n'a aucune expérience pratique du domaine et qu'il va vous enseigner n'importe quoi et n'importe comment (normalement les exemples devraient être basés sur l'industrie, l'économie ou la R&D, bref dans des domaines utilisés tous les jours par les entreprises mais surtout pas sur des jeux de hasard...!).

UNIVERS DES ÉVÉNEMENTS

D1. "L'univers des événements", ou "univers des observables", U est l'ensemble de toutes les issues (résultats) possibles, appelées "événements élémentaires", qui se présentent au cours d'une épreuve aléatoire déterminée. L'univers peut être fini (dénombrable) si les événements élémentaires sont en nombre fini ou continu (non dénombrable) s'ils sont infinis.

D2. Un "événement" quelconque A est un ensemble d'événements élémentaires et constitue une partie de l'univers des possibles U. Il est possible qu'un événement ne soit constitué que d'un seul événement élémentaire.

Considérons l'univers de tous les groupes sanguins possible, alors l'événement A "l'individu est de rhésus positif" est représenté par:

alors que l'événement B "l'individu est donneur universel" est représenté par:

D3. Soit U un univers et A un événement, nous disons que l'événement A "à lieu" (ou "se réalise") si lors du déroulement de l'épreuve se présente l'issue i

et que

. Dans le cas contraire, nous disons que A "n'a pas lieu".

D4. Le sous-ensemble vide

de U s'appelle "événement impossible". En effet, si lors de l'épreuve l'issue i se présente, nous avons toujours

et l'événement

n'a donc jamais lieu.

Si U est fini, ou infini dénombrable, tout sous-ensemble de U est un événement, ce n'est plus vrai si U est non dénombrable (nous verrons dans le chapitre de Statistiques pourquoi).

D5. L'ensemble U s'appelle aussi "événement certain". En effet, si lors de l'épreuve l'issue i se présente, nous avons toujours

(car U est l'univers des événements). L'événement U a donc toujours lieu.

D6. Soit A et B deux sous-ensembles de U. Nous savons que les événements

sont tous deux des sous-ensembles de U donc des événements qui sont respectivement des "événements conjoints" et des "événements disjoints".

les deux événements ne peuvent pas être réalisables pendant la même épreuve, nous disons alors qu'ils sont des "événements incompatibles".

les deux événements peuvent être réalisables dans la même épreuve (possibilité de voir un chat noir au moment où on passe sous une échelle par exemple), nous disons inversement qu'ils sont des "événements indépendants".

AXIOMATIQUE DE KOLMOGOROV

La probabilité d'un événement sera en quelque sorte le répondant de la notion de fréquence d'un phénomène aléatoire, en d'autres termes, à chaque événement nous allons attacher un nombre réel, appartenant à l'intervalle [0,1], qui mesurera sa probabilité (chance) de réalisation. Les propriétés des fréquences que nous pouvons mettre en évidence lors d'épreuves diverses nous permettent de fixer les propriétés des probabilités.

Soit U un univers. Nous disons que nous définissons une probabilité sur les événements de U si à tout événement A de U nous associons un nombre ou une mesure P(A), appelé "probabilité a priori de l'événement A" ou "probabilité marginale de A".

Ainsi, la probabilité de tout événement est un nombre réel compris entre 0 et 1 inclus (c'est du bon sens humain...).

A2. La probabilité de l'événement certain ou de l'ensemble (somme) des événements possibles est égale à 1:

la probabilité de la réunion ("ou") de deux événements incompatibles (ou mutuellement exclusifs) est donc égale à la somme de leurs probabilités (loi d'addition). Nous parlons alors de "probabilité disjointe".

Nous comprenons mieux que le troisième axiome exige que

sinon quoi la somme de toutes les probabilités pourrait être supérieur à l'unité (imaginez à nouveau le diagramme sagittal des deux événement dans votre tête!).

Considérons que la probabilité dans une région donnée d'avoir sur 50 ans un tremblement de terre majeur est de 5% et que d'avoir sur la même période une inondation majeure est 10%. Nous souhaiterions savoir qu'elle est la probabilité qu'une centrale nucléaire rencontre au plus un des deux événements pendant cette même période s'ils sont bien incompatibles. Nous avons alors la probabilité qui est la somme des deux probabilités ce qui fait 15%...

Nous retrouverons un exemple de ce genre de probabilité disjointe dans le chapitre de Génie Industriel dans la méthode AMDEC (Analyse des Modes de Défaillance, de leurs Effets et de leurs Criticités) pour l'analyse de pannes des systèmes à structure complexe.

Autrement dit sous forme plus générale si

est une suite d'événements disjoints deux à deux (

ne peuvent pas se produire en même temps si

) alors:

Nous parlons alors de "σ-additivité" car si nous regardons de plus près les trois axiomes ci-dessus la mesure P forme une σ-algèbre (cf. chapitre de Théorie de la Mesure).

A l'opposé, si les événements ne sont pas incompatibles (ils peuvent se superposer ou autrement dit: ils ont une probabilité jointe), nous avons alors comme probabilité qu'au plus un des deux ait lieu:

Ceci signifie que la probabilité pour que l'un au plus des événements A ou B se réalise est égale à la somme des probabilités pour que se réalise A ou pour que se réalise B, moins la probabilité pour que A et B se réalisent simultanément (nous démontrerons plus loin que cela est simplement équivalent à la probabilité que les deux n'aient pas lieu en même temps!).

Un cas typique d'utilisation de la dernière relation est l'actuariate. Effectivement nous connaissons les probabilités de survie de deux individus pendant une période de temps imposée et parfois nous souhaiterions calculer qu'elle est la probabilité qu'au moins un des deux survive survive pendant la période donnée. Dès lors nous utilisons la relation ci-dessus (cf. chapitre Dynamique Des Populations).

Considérons que la probabilité dans une région donnée d'avoir sur 50 ans un tremblement de terre majeur est de 5% et que d'avoir sur la même période une inondation majeure est 10% et que ces deux événements ne sont incompatibles... (c'est-à-dire que pendant les 50 ans, soit il y a le tremblement de terre soit l'inondation mais pas les deux). Nous souhaiterions savoir qu'elle est la probabilité qu'une centrale nucléaire rencontre tout au plus un des deux événements pendant cette même période. Nous avons alors la probabilité qui se calcule à partir de la relation précédente et qui donne alors 14.5%...

Et donc s'ils étaient incompatibles nous aurions

et nous retrouverions alors bien la probabilité disjointe:

Remarque: Indiquons que si la somme venait à faire plus de 100% c'est que de par l'axiome des probabilités les deux événements ne sont pas incompatibles!!! Ainsi, en reprenant l'exemple d'avant si nous avons 60% de probabilité pour le tremblement de terre et 70% de probabilité pour l'indondation alors cela veut dire qu'il y a (60%+70%)-100%=30% de probabilités que toutefois les deux aient lieux "en même temps" pendant la période de 50 ans (et il y a donc une faible probabilité pour qu'ils aient lieu "exactement" au même moment).

Une conséquence immédiate des axiomes (A2) et (A3) est la relation entre les probabilités d'un événement A et son complémentaire, noté

(ou plus rarement conformément à la notation utilisée dans le chapitre de Théorie De La Démonstration le complémentaire peut être noté

sont appelés "événements élémentaires". Lorsque ces événements ont même probabilité, nous disons qu'ils sont "équiprobables". Dans ce cas, il est très facile de calculer leur probabilité. En effet, ces événements étant par définition incompatibles entre eux à ce niveau de notre discours, nous avons en vertu de l'axiome 3 des probabilités:

et que les probabilités du membre de droite sont par hypothèse équiprobables, nous avons:

Définition: Si A et B ne sont pas incompatibles mais qu'ils sont indépendants, nous savons que par leur compatibilité

, alors (très important en statistiques!):

la probabilité de l'intersection ("et") de deux événements indépendants est égale au produit de leurs probabilités (loi de multiplication). Nous parlons alors de "probabilité conjointe" (c'est le cas le plus fréquent) ou simplement de "probabilité jointe". Si les deux probabilités sont définies par des lois de distributions, nours parlons alors bien évidemment de "distribution conjointe".

Considérons que la probabilité dans une région donnée d'avoir sur 50 ans un tremblement de terre majeur est de 5% et que d'avoir sur la même période une inondation majeure est 10%. De plus supposons que ces 2 événements ne soient pas incompatibles (en d'autres termes ils sont compatibles). Nous allons nous intéresser à leur indépendance. Ainsi, nous souhaiterions savoir qu'elle est la probabilité qu'une centrale nucléaire rencontre les deux événements en même temps, à quel que moment que ce soit, pendant cette même période. Nous avons alors la probabilité qui se calcule à partir de la relation précédente et qui donne alors 0.05%...

Autrement dit sous forme plus générale, les événements

sont indépendants si la probabilité de l'intersection est le produit des probabilités:

Remarque: Attention donc à ne pas confondre "indépendants" et "incompatibles"!

Grâce à la définition précédente, nous pouvons démontrer que la probabilité pour que soit A ou soit B ait lieu (donc au moins un des deux mais pas les deux en même temps), est simplement égale à... la probabilité que les deux n'aient pas lieu en même temps:

Nous pouvons aussi à l'aide de cette dernière définition déterminer la probabilité qu'un seul des deux événements ait lieu:

Considérons que la probabilité dans une région donnée d'avoir sur 50 ans un tremblement de terre majeur est de 5% et que d'avoir sur la même période une inondation majeure est 10%. Nous souhaiterions savoir qu'elle est la probabilité qu'une centrale nucléaire rencontre exactement un des deux événements pendant la même période en considérant qu'ils ne peuvent avoir lieu en même temps. Nous avons alors la probabilité qui se calcule à partir de la relation précédente et qui donne alors 14%...

Il y a un domaine courant dans l'industrie dans lequel sont appliquées fréquemment les quatre relations suivantes (en anglais):

Il s'agit de "l'analyse par arbres d'erreurs" ou "analyse par arbres probabilistes" qui est utilisée pour analyser les raisons possibles de défaillance d'un système quel qu'il soit (industriel, administratif ou autre).

Pour clore cette partie du chapitre considérons la figure suivante qui montre les diagrammes de Venn (cf. chapitre de Théorie Des Ensembles) pour les 16 événements (y compris l'événement impossible) qui peuvent être décrits en termes de deux événements donnés A et B. Dans chaque cas, l'événement est représenté par la zone rouge:

Considérons la situation où A représente un tremblement de terre et B représente une inondation majeure et U l'univers de tous les événements dramatiques pour une centrale nucléaire. Nous considérons que les deux événements sont indépendants. Ensuite, chacune des 16 combinaisons d'événements peuvent être décrites comme suit, soit mathématiquement ou verbalement.

1. Un tremblement de terre peut se produire ou une inondation ou rien ou l'ensemble à la fois ou tout autre événement (bref n'importe quel événement peut se produire).

: Tout événement incluant un tremblement de terre, une inondation ou les deux en même temps peut se produire.

: Tout événement incluant un tremblement de terre avec ou sans une inondation peut se produire à l'exception des événements incluant une inondation sans tremblement de terre.

: Tout événement incluant une inondation avec ou sans tremblement de terre peut se produire à l'exception des événements incluant un tremblement de terre sans inondation.

: Tout événement peut se produire sauf ceux incluant un tremblement de terre accompagné d'une inondation.

6. A: Tout événement avec un tremblement de terre peut se produire (cela inclut donc les événements associant un tremblement de terre et une inondation).

7. B: Tout événement avec une inondation peut se produire (cela inclut donc les événements associant une inondation et un tremblement de terre).

: Tout événement peut se produire sauf ceux incluant un tremblement de terre sans inondation ou ceux incluant une inondation sans tremblement de terre.

: Tout événement incluant un tremblement de terre sans inondation ou une inondation sans tremblement de terre peut avoir lieu.

10.

: Tout événement excepté ceux associés à une inondation peuvent avoir lieu.

11.

: Tout événement excepté ceux associés à un tremblement de terre peuvent avoir lieu.

12.

: Tout événement associant un tremblement de terre et une inondation peut avoir lieu.

13.

: Tout événement avec un tremblement de terre sans inondation peut avoir lieu.

14.

: Tout événement avec une inondation sans tremblement de terre peut avoir lieu.

15.

: Tout événement peut avoir lieu excepté ceux incluant un tremblement de terre et/ou une inondation.

PROBABILITÉS CONDITIONNELLES

Que pouvons-nous déduire sur la probabilité d'un évènement B sachant qu'un évènement A est réalisé sachant qu'il existe une lien entre A et B? En d'autres termes, s'il existe bien un lien entre A et B, la réalisation de A va modifier notre connaissance sur B et nous voulons savoir s'il est possible de définir la probabilité d'un événement conditionnellement (relativement) à un autre événement.

Ce type de probabilité est appelée "probabilité conditionnelle" ou "probabilité à posteriori" de B sachant A, et se note dans le cadre de l'étude des probabilités conditionnelles:

et souvent dans la pratique pour éviter la confusion avec une possible division:

qui est appelé "fonction de vraisemblance de A" ou encore "probabilité a priori de A" sachant B.

Historiquement, le premier mathématicien à avoir utilisé correctement la notion de probabilité conditionnelle fut Thomas Bayes (1702-1761). Aussi parlons-nous souvent de Bayes ou de bayésien dès que des probabilités conditionnelles sont en jeu: formule de Bayes, statistique bayésienne...

La notion de probabilité conditionnelle que nous allons introduire est beaucoup moins simple qu'elle ne paraît a priori et les problèmes de conditionnement sont une source inépuisable d'erreurs en tout genre (il existe de fameux paradoxes sur le sujet).

Commençons d'abord par un exemple simpliste: Supposons que nous ayons deux dés. Imaginons maintenant que nous ayons lancé seulement le premier dé. Nous voulons savoir quelle est la probabilité qu'en lançant le second dé, la somme des deux chiffres vaille une certaine valeur minimale. Ainsi, la probabilité d'obtenir cette valeur minimale fixée sachant la valeur du premier dé est totalement différente de la probabilité d'obtenir cette même valeur minimale en lançant les deux dés en même temps. Comment calculer cette nouvelle probabilité?

Soit l'hypothèse que

, nous pressentons que P(B / A) doit être proportionnel à P(B), la constante de proportionnalité étant déterminée par la normalisation:

Soit maintenant

(B est inclus dans le complémentaire de A donc les événements sont incompatibles). Il est relativement intuitif.... que sous hypothèse précédente d'incompatibilité nous ayons la probabilité conditionnelle:

Ceci nous mène aux définitions suivantes des probabilités à posteriori et respectivement à priori:

Ainsi, le fait de savoir que A est réalisé réduit l'ensemble des résultats possibles de U de B. A partir de là, seules les éventualités de

ont une importance. La probabilité de A sachant B inversement (par symétrie) doit donc être proportionnelle à

Le coefficient de proportionnalité qui est le dénominateur permet d'assurer l'événement certain. Effectivement, si les deux événements A et B sont indépendants (pensez à l'histoire du chat noir et de l'échelle par exemple), nous avons donc:

et nous voyons alors P(B / A) qui vaut P(B) et donc A n'apporte rien sur B et réciproquement!! Donc en d'autres termes, si A et B sont indépendants nous avons:

Une autre façon assez intuitive pour voir les choses est de se représenter la mesure de probabilité P comme une mesure d'aires de sous-ensembles de

En effet, si A et B sont deux sous-ensembles de

d'aires respectives P(A) et P(B) alors à la question de savoir qu'elle est la probabilité qu'un point du plan appartienne à B sachant qu'il appartient à A il est assez évident de répondre que cette probabilité est donnée par:

Indiquons aussi que la définition des probabilités conditionnelles s'utilise souvent sous la forme suivante:

appelée "formule des probabilités composées". Ainsi, la probabilité à posteriori de B sachant A peut donc aussi s'écrire sous la forme:

Supposons une maladie comme la méningite. La probabilité de l'avoir sera notée

(chiffre arbitraire pour l'exemple) et un signe de cette maladie comme le mal de tête sera noté

. Supposons connue la probabilité à posteriori d'avoir mal à la tête si nous avons une méningite:

Le théorème de Bayes donne alors la probabilité a priori d'avoir une méningite si nous avons mal à la tête!:

Nous pouvons donc connaître la probabilité de l'événement A connaissant les probabilités

élémentaires de ses causes et les probabilités conditionnelles de A pour chaque

qui est appelée la "formule des probabilités totales" ou "théorème des probabilités totales". Mais aussi, pour tout j, nous avons le corollaire suivant en utilisant les résultats précédents qui nous donne suite à un événement A, la probabilité que ce soit la cause

qui l'ai produit:

qui est la forme générale de la "formule de Bayes" ou "théorème de Bayes" que nous utiliserons un tout petit peu en Mécanique Statistique et dans le cadre de l'étude de la théorie des files d'attentes (cf. chapitre de Techniques De Gestion). Il faut savoir que les implications de ce théorème sont cependant considérables dans le quotidien, dans la médecine, dans l'industrie et dans le domaine du Data Mining informatique.

Nous retrouvons souvent dans la littérature de nombreux exemples d'applications de la relation précédente avec uniquement deux issues possibles B relativement à l'événement A. Dès lors nous avons la formule de Bayes écrite sous la forme suivante pour chacune des issues:

Pour les événements binaires, nous avons aussi (en revenant au théorème des probabilités totales vu plus haut):

E1.Une maladie affecte 10 personnes sur 10'000 (soit 0.1% = 0.001). Un test a été développé qui a 5% de faux positifs (personnes non atteint pour lequel le test dit qu'ils sont atteintes) mais qui détecte toujours cette maladie si une personne est atteinte. Quelle est la probabilité qu'une personne aléatoire pour laquelle le test donne un résultat positif a vraiment cette maladie?

Il y a donc sur 10'000 personnes, 500 qui seront des faux positifs et nous savons a posteriori que 10 personnes ont réellement la maladie. Alors la probabilité que quelqu'un qui a un résultat de test positif soit vraiment malade est:

Ce résultat est souvent contre-intuitif et même scandaleux. Il met aussi en évidence pourquoi les tests de diagnostiques doivent être extrêmement fiables!

E2. Deux machines

produisent respectivement 100 et 200 pièces.

produit 5% de pièces défectueuses et

en produit 6% (probabilités a posteriori). Quelle est la probabilité a priori pour qu'un objet défectueux ait été fabriqué par la machine

L'événement constaté A est donc la présence d'une pièce défectueuse et la probabilité recherchée est la probabilité a priori que celle-ci provienne de la machine

E3. D'un lot de 10 pièces dont le 30% est défectueux, nous prélevons sans remise un échantillon de taille 3. Quelle est la probabilité que la seconde pièce soit bonne (quelle que soit la première)?

où

est la probabilité que la deuxième soit bonne sachant que la première est mauvaise et

est la probabilité que la deuxième soit bonne sachant que la première est bonne.

est donc la probabilité que la première soit mauvaise,

la probabilité que la première soit bonne.

E4. Terminons avec un exemple important dans les entreprises où les employés doivent plusieurs fois dans leur carrière passer des examens sous forme de questionnaire à choix multiples (Q.C.M.). Si un employé répond à une question de deux choses l'une: soit il connaît la réponse, soit il la devine. Soit p la probabilité que l'employé connaisse la réponse et donc 1-p celle qu'il la devine. Nous admettons que l'employé qui devine répondra correctement avec une probabilité 1/m où m est le nombre de réponses proposées. Quelle est alors la probabilité a priori qu'un employé connaisse (réellement) la réponse à une question à 5 choix s'il y a répondu correctement?

Soient B et A respectivement les événements "l'employé connaît la réponse" et "l'employé répond correctement à la question". Alors la probabilité à priori qu'un employé connaisse (réellement) la réponse à une question qu'il a répondu correctement est:

L'analyse bayésienne fournit donc un outil puissant de formalisation du raisonnement dans l'incertain et les exemples que nous avons montrés illustrent surtout à quel point cet outil est délicat à employer.

ESPÉRANCE CONDITIONNELLE

Maintenant, passons à la version continue de la probabilité conditionnelle en abordant le sujet directement avec un exemple particulier (la théorie avec le cas général étant indigeste) infiniment important dans le domaine de statistiques sociales et de la finance quantitative. Cependant, ce choix (de l'étude d'un cas particulier) implique que le lecteur ait lu au préalable le chapitre de Statistiques pour y étudier les fonctions de distributions continues et plus particulièrement celle de la loi de Pareto.

Donc voilà le scénario: Souvent, en sciences sociales ou en économie, nous trouvons dans la littérature spécialisée traitant des lois de Pareto des affirmations du type suivant (mais quasiment jamais avec une démonstration détaillée): quel que soit votre revenu, le revenu moyen de ceux qui ont un revenu supérieur au vôtre est dans un rapport constant, supérieur à 1, à votre revenu si celui-ci suit une variable aléatoire de type Pareto. Nous disons alors que la loi est isomorphe à toute partie tronquée elle-même.

Soit X une variable aléatoire égale au revenu et suivant une loi de Pareto de densité (cf. chapitre de Statistiques):

avec

et qui a pour fonction de répartition (voir aussi le chapitre de Statistique pour la démonstration détaillée):

La phrase commence par "quel que soit votre revenu...", choisissons donc un revenu quelconque

À présent nous devons calculer "le revenu moyen de ceux qui ont un revenu supérieur à

". Il s'agit donc de calculer l'espérance (le revenu moyen) d'une nouvelle variable aléatoire Y qui est égale à X mais restreinte à la population des personnes ayant un revenu supérieur à

Bon, jusqu'à maintenant nous n'avons fait que du vocabulaire. D'abord rappelons la relation de probabilité conditionnelle suivante vue plus haut:

Avant d'aller plus loin, il faut être conscient que le numérateur et dénominateur sont indépendants mais que l'ensemble doit être toutefois considéré comme la réalisation d'une seule et unique variable aléatoire que nous noterons Y. Par ailleurs, seulement le numérateur est dépendant d'une variable. Le dénominateur peut lui être considéré comme une constante de normalisation.

E(Y) représente donc le revenu moyen de ceux qui ont un revenu supérieur à et comme on peut le constater de l'égalité ci-dessus il est bien dans un rapport constant, supérieur à 1, à votre revenu .

Nous pouvons vérifier ce résultat en faisant une simulation de Monte-Carlo dans un tableur (c'est intéressant de le mentionner pour généraliser à des cas non calculable à la main). Il suffit effectivement d'y simuler l'inverse de la fonction de répartition:

et ensuite de prendre la moyenne des valeurs obtenues supérieurs ou égales à un X donné (ce qui correspondra à ) et vérifier que nous obtenons bien le résultat démontré précédemment!

Évidemment, nous pourrions aussi calculer la variance conditionnelle (in extenso l'écart-type conditionnel). Cela viendra peut-être un jour...

RÉSEAUX BAYÉSIENS

Les réseaux bayésiens sont simplement une représentation graphique d'un problème de probabilités conditionnelles qui permet de mieux visualiser l'interaction entre les différentes variables lorsque que celles-ci commencent à être en grande nombre.

C'est une technique de plus en plus utilisée dans le décisionnel assisté par logiciel (Data Mining), l'intelligence artificielle (AI) et également dans l'analyse et la gestion du risque (norme ISO 31010).

Les réseaux bayésiens sont par définition des graphes orientés acycliques (cf. chapitre de Théorie Des Graphes), afin qu'un événement ne puisse pas (même indirectement) influencer sa propre probabilité, avec description quantitative des dépendances entre événements.

Ces graphes servent à la fois de modèles de représentation des connaissances et de machines à calculer des probabilités conditionnelles. Ils sont surtout utilisés pour le diagnostic (médical et industriel), l'analyse de risques (diagnostics de pannes, anomalies ou accidents), la détection des spams (filtre bayésien), l'analyse de texte de voix et d'images, l'analyse d'opinions, la détection de fraudeurs ou de mauvais payeurs ainsi que dans le data mining (EGC: Extraction et Gestion de la Connaissance) en général.

Remarque: De nombreux systèmes et logiciels permettent de construire et d'analyser des réseaux bayésiens sur la base de dessins ou de d'informations existantes dans des bases de données. Solutions payantes: SQL Server, Oracle, Hugin. Solutions gratuits (à ce jour): Bayesia, Tanagra, Microsoft Belief Network MSBNX 1.4.2, RapidMiner. Personnellement je préfère la simplicité du petit logiciel MSBNX de Microsoft. Pour information, en 10 ans d'expérience professionnelle en tant que consultant je n'ai rencontré à ce jour qu'une seule entreprise parmi plus de 800 multinationales dans mon portefeuille qui utilisait les réseaux de bayésiens... (dans le domaine des transports).

Utiliser un réseau bayésien s'appelle faire de "l'inférence bayésienne". En fonction des informations observées, nous calculons la probabilité des données possibles connues mais non observées.

Pour un domaine donné (par exemple médical), nous décrivons les relations causales entre variables d'intérêt par un graphe (plus besoin de préciser qu'il est acyclique). Dans ce graphe, les relations de cause à effet entre les variables ne sont pas déterministes, mais probabilisées. Ainsi, l'observation d'une cause ou de plusieurs causes n'entraîne pas systématiquement l'effet ou les effets qui en dépendent, mais modifie seulement la probabilité de les observer.

L'intérêt particulier des réseaux bayésiens est de tenir compte simultanément de connaissances a priori d'experts (dans le graphe) et de l'expérience contenue dans les données.

Exemple de 5 variables avec relations (graphe orienté acyclique) et numérotation des états/variables (en anglais: "states"):

Évidemment, la construction du graphe causal se fonde principalement sur le retour d'expériences (REX) et résulte parfois de normes ou de rapports de comités d'experts. Dans l'informatique, le graphe causal évolue automatiquement en fonction des bases de données (pensez à la librairie Amazon qui cible les publicités en fonction de vos achats passés en temps réel ou au service Genius de Apple). Cependant nous pourrons rarement penser à toutes les possibilités et il y aura aussi parfois des états cachés entre deux états qui auront été oubliés mais qui auraient permis de mieux modéliser la situation.

Imaginons dans l'exemple ci-dessus qu'à l'aide d'une base de données d'une entreprise, nous sachions que sur 100'000 jours hommes, nous avons eu dans cette entreprise 1'000 accidents du travail (soit 1% du total) et 100 pannes machines (soit 0.01% du total). Nous représentons cela alors sous la forme traditionnelle suivante:

Figure: 6.3 - Réseau bayésien acyclique orienté avec probabilités de départ

où nous avons le sous-ensemble S2, S4, S5 qui constitue ce que les spécialistes appellent une "connexion série ou linéaire", le triplet S3, S2, S4 constitue une "relation divergente" (si les flèches pour ce triplet étaient inversées, nous aurions une "relation convergente").

Avant d'aller plus loin avec notre exemple faisons quelques constats par rapport à ces trois types de relations:

Pour toute clarté, distinguons d'abord "l'indépendance conditionnelle" de la "dépendance conditionnelle".

Nous disons que des événements A et C sont "indépendants conditionnellement" si étant donné un événement B l'égalité suivante est vérifiée:

Donc le qualificatif "conditionnellement" implique la présence de B et le fait que C n'influence pas la probabilité de l'événement A.

Concernant la "dépendance conditionnelle", nous pouvons cette fois distinguer 3 types de relations.

1. La dépendance conditionnelle du type suivant est appelée "connexion série ou linéaire" (déjà mentionnée plus haut):

où A, B et C sont dépendants (dans cet exemple particulier il y a 3 nœuds dépendants A, B et C mais d'une manière générale cette dépendance concernerait tous les noeuds s'il y en avait plus de 3).

En outre A et C sont dépendants mais conditionnellement à B. Mais si la variable B est connue, A n'apporte plus aucune information utile sur C (le cheminement de l'incertitude est en quelque sorte rompu) et dès lors A et C deviennent indépendants conditionnellement. Nous avons la probabilité conditionnelle qui se simplifierait donc sous la forme suivante:

2. La dépendance conditionnelle du type suivant est appelée "connexion divergente" (aussi déjà mentionnée plus haut):

En outre B et C sont dépendants conditionnellement à A. Mais si A est connue, B n'apporte plus aucune information sur C (à nouveau le cheminement de l'incertitude est en quelque sorte rompu) et dès lors B et C deviennent indépendants. Nous avons donc par exemple si A est connue:

3. La dépendance conditionnelle du type suivant est appelée "connexion convergente" ou "V-Structure" (aussi déjà mentionnée plus haut):

Donc B et C sont indépendants mais deviennent dépendants conditionnellement à A. Si A est connue, nous avons alors:

La dépendance entre les parents passe donc par l'observation de leur enfant commun.

Maintenant, pour faire un exemple concret, imaginons que notre base de données nous donne (grâce aux responsables qualité qui ont toujours su saisir les anomalies qualité) que lorsqu'une panne machine a eu lieu, 99 fois sur 100 (99%) il y a eu un arrêt total de la production (donc in extenso 1 fois sur 100: 1% il n'y pas eu d'arrêt de la production) et que sur tous les arrêts de la production 1% n'était pas dû à une panne machine. Ce que nous représentons traditionnellement sous la forme suivante:

Donc la "probabilité implicite" qu'il y ait un arrêt de la production est donnée par:

Ce chiffre représente donc la proportion implicite d'arrêts de production parmi les 100'000 jours hommes (nous pouvons donc donner une proportion de lignes de la base données représentant un arrêt production quelle que soit la cause et ce sans même avoir les détails de la base de données).

Il en découle immédiatement alors la probabilité implicite qu'il n'y ait pas d'arrêt de la production:

Maintenant supposons que nous avons observé un arrêt de la production. Quelle est la probabilité à posteriori qu'il soit dû à une panne machine? Nous avons alors:

Figure: 6.9 - Probabilité a posteriori d'un arrêt dû à une panne machine dans MSBNX 1.4.2

Maintenant, imaginons que notre base de données nous donne (toujours grâce aux responsables qualité qui ont veillé à saisir les anomalies qualité) que 99 fois sur 100 (99%) lorsqu'il y a eu un arrêt de la production, il y a eu une évacuation. En revanche 5 % des évacuations ont été identifiées comme n'ayant rien à voir avec un arrêt de la production (donc 95% des évacuations sont dues à des exercices d'incendie OU à d'autres événements):

Maintenant, pour calculer la probabilité implicite des évacuations a posteriori par rapport aux pannes machines, nous avons vu que lorsque nous avions une dépendance conditionnelle série, la probabilité conditionnelle ne dépendait que du parent direct. Ainsi, il vient:

Donc la probabilité implicite de l'évacuation ne dépend effectivement pas des pannes de machines.

Maintenant supposons que nous avons observé une évacuation. Nous voulons savoir quelle est la probabilité a posteriori qu'elle soit due à une panne machine! Nous avons alors:

Figure: 6.12 - Probabilité a posteriori d'une évacuation due à une panne machine dans MSBNX 1.4.2

Maintenant nous étudions le cas avec l'alarme et là aussi une base de données nous permet de construire un tableau avec les différentes probabilités:

Maintenant, pour calculer la probabilité implicite qu'il y ait une alarme, il va falloir considérer les quatre situations possibles. Nous avons alors en utilisant le théorème des probabilités totales:

L'application numérique donne donc pour la probabilité implicite d'une alarme:

Concernant les notations, il peut être utile au lecteur de savoir qu'il peut parfois trouver dans la littérature:

Remarque: Dans l'exemple particulier étudié ici les événements ont tous deux états. Mais dans la pratique cela peut aller à 3, 4 et plus. Dès lors les tableaux de croisement de probabilités deviennent vite énormes.

Comme pour les cas précédents, supposons que nous savons qu'il y a eu un accident de travail. Nous souhaitons alors calculer la probabilité a priori d'une alarme. Nous avons alors (observez que la probabilité ne dépend effectivement alors plus que de l'état S2 puisque l'état S1 est entièrement connu!):

Ainsi, savoir qu'il y a eu un accident de travail augmente la probabilité qu'il y ait bien une alarme (nous passons d'une probabilité de 10.089% à 10.65%).

Pour terminer cet exemple, nous souhaiterions calculer les probabilités a posteriori et . Pour cela, nous devons d'abord calculer les probabilités a priori et

(cette dernière venant d'être calculée).

Nous avons pour la valeur manquante (ce qui se vérifie aussi facilement qu'avant avec le logiciel MSNBX 1.4.2):

Nous avons maintenant tout ce qu'il faut pour calculer la probabilité a priori de et

Donc la probabilité a priori qu'il y ait une panne machine lorsque nous savons qu'il y a une alarme est de 0.979% (donc in extenso 0.021% que le déclenchement de l'alarme ne soit pas dû a priori à une panne machine). Respectivement il y a, a priori, 0.998 % de probabilité y ait un accident de travail lorsque nous savons qu'il y a une alarme (et donc 0.002 % que cela ne soit pas dû a priori à un accident de travail).

Du point de vue critique, lorsqu'il y a donc une alarme finalement nous ne pouvons pas dire grand chose... Cela est dû, dans le cas présent, au fait que les événements d'intérêt notable ont tous deux de faibles probabilités d'avoir lieu (accident de travail et panne machine) et que les employés réagissent plutôt bien au niveau du déclenchement de l'alarme (sinon si les probabilités a priori étaient grandes cela signifierait que le comportement des employés n'est pas bon puisque nous pouvons deviner - avec exaspération - à l'avance quel problème a lieu avec une certaine confiance).

Remarque: Nous n'avons pas trouvé comment vérifier ces derniers calculs avec MSNBX 1.4.2. Si quelqu'un trouve comment le faire, ce serait super de nous communiquer le détail de la démarche.

Pour clore, le lecteur aura remarqué que les calculs peuvent vite devenir ennuyeux dès que le graphe devient complexe d'où l'usage de logiciels informatiques. De plus, dans le domaine bancaire qui utilise par exemple les réseaux bayésiens pour les risques de crédit, la probabilité a priori peut être plus complexe. Par exemple nous pourrions vouloir connaître la probabilité a priori qu'il y ait une panne machine sachant que nous avons une alarme et un accident de travail:

MARTINGALES

Une martingale en probabilités (il en existe une autre dans les processus stochastiques) est une technique permettant d'augmenter les chances de gain aux jeux de hasard tout en respectant les règles de jeu. Le principe dépend complètement du type de jeu qui en est la cible, mais le terme est accompagné d'une aura de mystère qui voudrait que certains joueurs connaissent des techniques secrètes mais efficaces pour tricher avec le hasard. Par exemple, de nombreux joueurs (ou candidats au jeu) cherchent LA martingale qui permettra de battre la banque dans les jeux les plus courants dans les casinos (des institutions dont la rentabilité repose presque entièrement sur la différence - même faible - qui existe entre les chances de gagner et celles de perdre).

De nombreuses martingales ne sont que le rêve de leur auteur, certaines sont en fait inapplicables, quelques-unes permettent effectivement de tricher un peu. Les jeux d'argent sont en général inéquitables: quel que soit le coup joué, la probabilité de gain du casino (ou de l'État dans le cas d'une loterie) est plus importante que celle du joueur. Dans ce type de jeu, il n'est pas possible d'inverser les chances, seulement de minimiser la probabilité de ruine du joueur.

L'exemple le plus courant est la martingale de la roulette. Elle consiste à jouer une chance simple à la roulette (noir ou rouge, paire ou impaire) de façon à gagner, par exemple, une unité dans une série de coups en doublant sa mise si l'on perd, et cela jusqu'à ce que l'on gagne. Exemple: le joueur mise 1 unité sur le rouge, si le rouge sort, il arrête de jouer et il a gagné 1 unité (2 unités de gain moins l'unité de mise), si le noir sort, il double sa mise en pariant 2 unités sur le rouge et ainsi de suite jusqu'à ce qu'il gagne.

Ayant une chance sur deux de gagner, il peut penser qu'il va finir par gagner ; quand il gagne, il est forcément remboursé de tout ce qu'il a joué, plus une fois sa mise de départ.

Cette martingale semble être sûre en pratique. À noter que sur le plan théorique, pour être sûr de gagner, il faudrait avoir la possibilité de jouer au cas où un nombre de fois illimité.... Ce qui présente des inconvénients majeurs:

Cette martingale est en fait limitée par les mises que le joueur peut faire car il faut doubler la mise à chaque coup tant que l'on perd: 2 fois la mise de départ, puis 4, 8, 16.... s'il perd 10 fois de suite, il doit pouvoir avancer 1024 fois sa mise initiale pour la 11e partie ! Il faut donc beaucoup d'argent pour gagner peu.ü

Les roulettes comportent de plus un "0" qui n'est ni rouge ni noir. Le risque de perdre lors de chaque coup est ainsi plus grand que 1/2...

De plus, pour paralyser cette stratégie, les casinos proposent des tables de jeu par tranche de mise: de 1 à 100.-, de 2 à 200.-, de 5 à 500.-, ... Impossible donc d'utiliser cette méthode sur un grand nombre de coups, ce qui augmente le risque de tout perdre.

Le black jack est un jeu qui possède des stratégies gagnantes: plusieurs techniques de jeu, qui nécessitent généralement de mémoriser les cartes, permettent de renverser les chances en faveur du joueur. Le mathématicien Edward Thorp a ainsi publié en 1962 un livre qui fut à l'époque un véritable best-seller. Mais toutes ces méthodes demandent de longues semaines d'entraînement et sont facilement décelables par le croupier (les brusques changements de montant des mises sont caractéristiques). Le casino a alors tout loisir d'écarter de son établissement les joueurs en question.

Il faut noter qu'il existe des méthodes assez évoluées. L'une d'elles repose sur les combinaisons les moins jouées. Dans les jeux où le gain dépend du nombre de joueurs gagnants (Loto...), jouer les combinaisons les moins jouées optimisera les gains. C'est ainsi que certaines personnes vendent des combinaisons qui seraient statistiquement très rarement utilisées par les autres joueurs.

Partant de ce raisonnement, on peut encore conclure qu'un joueur qui aurait réussi à déterminer ainsi les combinaisons statistiquement les moins jouées, afin d'optimiser son espérance de gain, ne sera en fait certainement pas le seul joueur à avoir obtenu par l'analyse ces fameuses combinaisons! Cela revient à dire que les numéros en théorie les moins joués sont en fait surjoués par combinaisons, le mieux serait peut-être de réaliser un savant mélange de numéros sous-joués et de numéros surjoués pour obtenir les combinaisons idéales. Une autre conclusion à tout cela est peut-être que le mieux est encore de jouer des combinaisons aléatoires qui ont finalement moins de chance d'être également choisies par les joueurs qui incorporent un facteur humain et harmonieux dans le choix de leurs nombres.

ANALYSE COMBINATOIRE

"L'analyse combinatoire" (techniques de dénombrement) est le domaine de la mathématique qui s'occupe de l'étude de l'ensemble des issues, événements ou faits (distinguables ou non tous distinguables) avec leurs arrangements (combinaisons) ordonnés ou non selon certaines contraintes données.

D1. Une suite d'objets (événements, issues, objets,...) est dite "ordonnée" si chaque suite composée d'un ordre particulier des objets est comptabilisée comme une configuration particulière.

D2. Une suite est donc "non ordonnée" si et seulement si nous intéresse la fréquence d'apparition des objets indépendamment de leur ordre.

D3. Des objets (d'une suite) sont dits "distincts" si leurs caractéristiques ne permettent pas de les confondre avec des autres objets.

Remarque: Nous avons choisi de mettre l'analyse combinatoire dans ce chapitre car lorsque nous calculons des probabilités, nous avons également assez souvent besoin de savoir quelle est la probabilité de tomber sur une combinaison ou un arrangement d'événements donnés sous certaines contraintes.

Souvent les étudiants ont de la peine à se rappeler de la différence entre une permutation, un arrangement et une combinaison. Voici donc un petit résumé de ce que nous allons voir:

- Permutation: On prend tous les éléments.

- Arrangement: On choisit des éléments parmi ceux de l'ensemble de départ et l'ordre intervient

Il ne faut pas oublier que pour le résultat de chacun, l'inverse donnera la probabilité de tomber respectivement sur une Permutation/Arrangement/Combinaison donnée!!

Nous allons présenter et démontrer ci-dessous les 6 cas les plus répandus à partir desquels nous pouvons trouver (habituellement) tous les autres:

ARRANGEMENTS SIMPLES AVEC RÉPÉTITIONS

Définition: Un "arrangement simple avec répétitions" est une suite ordonnée de longueur m de n objets distincts non nécessairement tous différents dans la suite (soit avec répétitions possibles!).

Soient A et B deux ensembles finis de cardinaux respectifs m, n tels que trivialement il y ait m façons de choisir un objet dans A (de type a) et n façons de choisir un objet dans B (de type b).

Nous avons vu dans le chapitre de Théorie Des Ensembles que si A et B sont disjoints, que:

P1. Si un objet ne peut être à la fois de type a et de type b et s'il y a m façons de choisir un objet de type a et n façons de choisir un objet de type b, alors l'union des objets donne

sélections (c'est typiquement le résultat des requêtes d'UNION en SQL, sans filtres, dans les SGBDR des entreprises).

P2. Si nous pouvons choisir un objet de type a de m façons puis un objet de type b de n façons, alors il y a selon le produit cartésien de deux ensembles (cf. chapitre de Théorie Des Ensembles):

de manières choisir un seul et unique objet de type a puis un objet de type b (this is typically the result of SELECT queries in SQL, without filters, with several unrelated tables in corporate RDBMS).

Avec les mêmes notations pour m et n, nous pouvons donc choisir pour chaque élément de A, son unique image parmi les n éléments de B. Il y a donc n façons de choisir l'image du premier élément de A, puis aussi n façons de choisir l'image du deuxième élément de A, ..., puis n façons de choisir l'image du m-ème élément de A. Le nombre d'applications totales consécutives possibles de A dans B est donc égal aux m produits de n (m fois le produit cartésien du cardinal de l'ensemble B avec lui-même donc!). Ce qu'il est d'usage d'écrire (nous avons mis les différentes écritures que l'on peut trouver dans les livres scolaires):

où

est l'ensemble des applications de A dans B. La progression du nombre de possibilités est donc géométrique (et non "exponentielle" comme il est souvent dit à tort!).

Ce résultat mathématique est assimilable au résultat ordonné (un arrangement

dont l'ordre des éléments de la suite est pris en compte) de m tirages dans un sac contenant n boules différentes avec remise après chaque tirage. Il est d'usage en France d'appeler cela une "p-liste".

E1. Combien de "mots" (ordonnés) de 7 lettres pouvons-nous former à partir d'un alphabet de 24 lettres distinctes (très utile pour connaître le nombre d'essais pour trouver un mot de passe par exemple)? La solution est:

E2. Combien de groupes d'individus aurons-nous lors d'une votation sur 5 sujets et où chacun peut être soit accepté, soit rejeté? La solution (très utilisée dans les entreprises en Suisse) est:

Une généralisation simple de ce dernier résultat peut consister dans l'énoncé du problème suivant:

Si nous disposons de m objets

tels que

peut prendre

états différents alors le nombre de combinaisons possibles est:

Un graphiste a créé sous le logiciel Adobe Photoshop une maquette d'une site Internet avec trois en-têtes différentes, deux variantes pour le corps, quatre variantes pour le fond, six variantes de menus et trois variantes pour le pied de pages. Le nombre total de combinaisons (compositions dans le langage du graphiste) que l'on pourra présenter au client sera de:

PERMUTATIONS SIMPLES sans répétitionS

Définition: Une "permutation simple sans répétitions" (appelée anciennement "substitution") de n objets distincts est une suite ordonnée (différente) de ces n objets par définition tous différents dans la suite (sans répétition).

Remarque: Attention à ne pas confondre le concept de permutation (de n éléments entre eux) et d'arrangement (de n éléments parmi m)!

Le nombre de permutations de n éléments peut être calculé par récurrence: il y a n places pour un premier élément, n-1 pour un deuxième élément, ..., et il ne restera qu'une place pour le dernier élément restant.

permutations possibles. Ce type de calcul peut être par exemple utile en gestion de projets (calcul du nombre de manière différentes de recevoir dans une chaîne de production n pièces toutes différentes commandées chez des fournisseurs externes).

Combien de "mots" (ordonnés) de 7 lettres distinctes sans répétition pouvons-nous former?

Ce résultat nous amène à l'assimiler au résultat ordonné (un arrangement

dont l'ordre des éléments de la suite est pris en compte) du tirage de toutes les boules différentes d'un sac contenant n boules distinguables sans remise.

PERMUTATIONS SIMPLES AVEC RÉPÉTITIONS

Définition: Lorsque nous considérons le nombre de permutations ordonnées (différentes) d'une suite de n objets distincts tous nécessairement non différents dans une quantité donnée dans la suite nous parlons de "permutation simple avec répétitions".

Remarque: Il ne faut pas confondre cette dernière définition avec "l'arrangement avec répétition" vu plus haut!

Lorsque certains éléments ne sont pas tous distinguables dans une suite d'objets (ils sont répétitifs dans la suite), alors le nombre de permutations que nous pouvons constituer se réduit alors assez trivialement à un nombre plus petit que si tous les éléments étaient tous distinguables.

avec

le nombre de permutations possibles (pour l'instant inconnu) avec répétition (un ou plusieurs éléments répétitifs dans une suite d'éléments sont non distinguables par permutation).

Si chacune des

places occupées par des éléments identiques était occupée par des éléments différents, le nombre de permutations serait alors à multiplier par chacun des

(cas précédent).

et nous nous retrouvons bien avec une permutation simple (sans répétition) telle que:

Il conviendra donc de se rappeler que les permutations avec répétition sont en plus petit nombre que celles sans répétition (évident puisque nous ne prenons pas en compte les permutations des éléments identiques entre eux!).

Combien de "mots" (ordonnés) pouvons-nous former avec les lettres du mot "Mississippi":

Ce résultat nous amène à l'assimiler au résultat ordonné (une permutation

dont l'ordre des éléments de la suite n'est pas pris en compte) du tirage de n boules non toutes distinguables d'un sac contenant

boules avec remise limitée pour chaque boule.

ARRANGEMENTS SIMPLES SANS RÉPÉTITIONS

Définition: Un "arrangement simple sans répétitions" est une suite ordonnée de p objets tous distincts pris parmi n objets distincts avec

Nous nous proposons donc maintenant de dénombrer les arrangements possibles sans répétition de p objets parmi n. Nous noterons

le nombre de ces arrangements.

Il est aisé de calculer

et de vérifier que

. Effectivement, il existe n façons de choisir le premier objet et (n-1) façons de choisir le deuxième lorsque nous avons déjà le premier.

Pour déterminer

, nous raisonnons alors par récurrence. Nous supposons

connu et nous en déduisons:

Ce résultat nous amène à l'assimiler au résultat ordonné (un arrangement

dont l'ordre des éléments de la suite est pris en compte) du tirage de p boules distinctes d'un sac contenant n boules différentes sans remise.

Soit les 24 lettres de l'alphabet, combien de "mots" (ordonnés) de 7 lettres distinctes pouvons-nous former?

Le lecteur aura peut-être remarqué que si nous prenons

nous nous retrouvons avec:

donc nous pouvons dire qu'une permutation simple de n éléments est comme un arrangement simple sans répétition avec

COMBINAISONS SIMPLES SANS RÉPÉTITIONS

Définition: Une "combinaison simple sans répétitions" ou "choix" est une suite non-ordonnée (dont l'ordre ne nous intéresse pas!) de p éléments tous différents (pas nécessairement dans le sens visuel du terme!) choisis parmi n objets distincts et est par définition notée sur ce site Internet

et appelée la "binomiale" ou "coefficient binomial".

Si nous permutons les éléments de chaque arrangement simple de p éléments parmi n, nous obtenons toutes les permutations simples et nous savons qu'il y en a p! d'où en utilisant la convention d'écriture du présent site internet (contraire à celle préconisée par la norme ISO 31-11 et ISO 80000-2:2009!):

C'est une relation très souvent utilisée dans les jeux de hasard mais également dans l'industrie via la loi hypergéométrique (cf. chapitre de Techniques De Gestion) ainsi que dans les statistiques d'assez haut niveau comme les statistiques d'ordre (cf. chapitre de Statistiques).

Ce résultat nous amène à l'assimiler au résultat non ordonné (un arrangement

dont l'ordre des éléments de la suite n'est pas pris en compte) du tirage de p boules d'un sac contenant n boules différentes sans remise.

Remarques:

R1. Nous avons nécessairement par construction .

R2. Selon les auteurs nous inversons l'indice ou le suffixe de C il faut donc être prudent!

Soit un alphabet de 24 lettres, combien avons-nous de choix de prendre 7 lettres parmi les 24 sans prendre en compte l'ordre dans lequel sont triées les lettres:

La même valeur peut être obtenue avec la fonction COMBIN( ) de Microsoft Excel 11.8346 (version française).

Il existe, relativement à la binomiale, une autre relation très souvent utilisée dans de nombreux cas d'études ou également de manière plus globale en physique ou analyse fonctionnelle. Il s'agit de la "formule de Pascal":

COMBINAISONS SIMPLES AVEC RÉPÉTITIONS

Définition: Une "combinaison simple avec répétitions" de p éléments parmi n est une collection de p éléments non ordonnée, et non nécessairement distincts.

Les combinaisons simples avec répétitions ont une grande importance pour le test statistique de Wald-Wolfowitz utilisée en économie et biologique que nous étudierons dans le chapitre de Statistiques.

Introduisons ce type de combinaison directement avec un exemple et une approche ingénieuse que l'on doit (du moins c'est ce qui ce dit...) au physicien prix Nobel de physique 1938: Enrico Fermi.

Considérons {a, b, c, d, e, f} un ensemble ayant un nombre n d'éléments égal à 6 et dont nous tirons un nombre p égal à 8. Nous souhaiterions calculer le nombre de combinaisons avec répétitions des éléments d'un ensemble de départ de cardinal 6 dans une ensemble d'arrivée de cardinal 8.

où comme l'ordre des éléments n'intervient pas, nous avons regroupé les éléments afin de faciliter la lecture. Représentons maintenant tous les éléments ci-dessus par un même symbole: "0" et séparons les groupes constitués d'un même élément par des barres (c'est là l'astuce d'Enrico Fermi). Ainsi, lorsqu'un ou plusieurs éléments ne figurent pas dans une combinaison, nous noterons tout de même les barres de séparation (correspondant au nombre d'éléments absents + la séparation du groupe). Les trois combinaisons ci-dessus s'écrivent alors:

Nous voyons ci-dessus que dans chaque cas, il a y huit "0" (logique...) mais surtout qu'il y a toujours cinq "|". Le nombre de combinaisons avec répétitions des 6 éléments de l'ensemble de départ à celui d'arrivée de 8 éléments est donc égal au nombre de permutations avec repetitions de 8+5=13 éléments, donc:

Nous remarquons que dans le cas général le nombre de combinaisons avec répétitions sans prise en compte de l'ordre s'écrit alors:

CHAÎNES DE MARKOV

Les chaînes de Markov sont des outils statistiques et probabilistes simples et puissants mais dont la forme de présentation mathématique prête parfois à l'horreur.... Nous allons tenter ici de simplifier un maximum les notations pour introduire cet outil formidable très utilisé au sein des entreprises pour gérer la logistique, les files d'attentes aux centrales d'appel ou aux caisses de magasins jusqu'à la théorie de la défaillance pour la maintenance préventive, en physique statistique ou en génie biologique (et la liste est encore longue et pour plus de détails le lecteur pourra se reporter aux chapitres concernés disponibles sur le site...).

D1. Nous noterons

un processus probabiliste fonction du temps dont la valeur à chaque instant dépend de l'issue d'une expérience aléatoire. Ainsi, à chaque instant t, X(t) est donc une variable aléatoire que nous désignons par "processus stochastique" (pour plus de détails dans le cadre de finance, voir le chapitre d'Économie).

D2. Si nous considérons un temps discret, nous notons alors

un "processus stochastique à temps discret".

D3. Si nous supposons en outre que les variables aléatoires

ne peuvent prendre qu'un ensemble discret de valeurs nous parlons alors de "processus à temps discret et à espace discret".

Remarque: Il est tout à fait possible comme dans l'étude du télétrafic (cf. chapitre Techniques De Gestion) d'avoir un processus à temps continu et à espace d'états discrets.

en d'autres termes (c'est très simple!) la probabilité pour que la chaîne soit dans un certain état à la n-ème étape du processus ne dépend que de l'état du processus à l'étape n-1 et pas des étapes précédentes!

Remarque: Done en probabilités un processus stochastique vérifie la propriété markovienne ci-dessus si et seulement si la distribution conditionnelle de probabilité des états futurs, étant donné l'instant présent, ne dépend que de ce même état présent et pas des états passés. Un processus qui possède cette propriété est aussi appelé "processus de Markov".

Définition: Une "chaîne de Markov homogène" est une chaîne telle que la probabilité qu'elle a pour passer dans un certain état à la n-ième étape soit indépendante du temps. En d'autres termes, la loi de probabilité caractérisant la prochaine étape ne dépend pas du temps (de l'étape précédente), et en tout temps la loi de probabilité de la chaîne est toujours la même pour caractériser la transition à l'étape en cours.

Nous pouvons alors définir (réduire) la loi de "probabilité de transition" d'un état i vers un état j par:

Il est alors naturel de définir la "matrice de transition" ou "matrice stochastique":

comme la matrice qui contient donc tous les probabilités possibles de transitions des états d'un graphe d'états orienté.

Les chaînes de Markov peuvent être représentées graphiquement sous la forme d'un graphe orienté G (cf. chapitre de Théorie Des Graphes) appelé parfois "automate" ayant pour sommet les points (états) i et pour arêtes les couples orientés (i, j). Nous associons alors à chaque composante un arc orienté et sa probabilité de transition.

Ainsi, dans l'exemple du graphe orienté ci-dessus, les seules transitions permises par les 4 états (matrice

) ci-dessus sont celles indiquées par les flèches. Ce qui fait que la matrice de transition se simplifie alors en:

où le lecteur remarquera que nous avons la propriété triviale (par construction!) que la somme des termes (probabilités) d'une ligne de la matrice P est toujours unitaire (et donc que la somme des termes d'une colonne de la transposée de la matrice P est toujours unitaire aussi):

et que la matrice est positive (ce qui signifie que tous ces termes sont positifs ou nuls).

Remarque: Se rappeler que la somme des probabilités des colonnes obtenues est toujours égale à 1 pour la transposée de la matrice stochastique!!

L'analyse du régime transitoire (ou: promenade aléatoire) d'une chaîne de Markov consiste à déterminer (ou à imposer à!) la matrice-colonne (vecteur) p(n) d'être dans un état donné à la n-ième étape de la promenade:

avec la somme des composantes qui vaut évidemment toujours 1 (car la somme des probabilités de se trouver dans un quelconque des sommets du graphe à un moment/étape donné(e) doit être égale à 100%).

Nous appelons fréquemment cette matrice-colonne "vecteur stochastique" ou "mesure de probabilité sur le sommet i".

Démontrons que la probabilité de ce vecteur stochastique est effectivement toujours unitaire.

Ce vecteur de probabilités, dont les composantes sont positives ou nulles, dépend (c'est assez intuitif) de la matrice de transition P et du vecteur de probabilités initiales p(0).

Bien que cela soit démontrable (théorème de Perron-Frobenius) le lecteur pourra vérifier par un cas pratique (informatisé ou non!) que si nous choisissons un vecteur d'état p(n) quelconque alors il existe pour toute matrice stochastique P un vecteur unique de probabilité noté traditionnellement

tel que:

Une telle mesure de probabilité

vérifiant la relation précédente est appelée une "mesure invariante" ou "mesure stationnaire" ou encore "mesure d'équilibre" qui représente l'état d'équilibre du système. En termes d'algèbre linéaire (voir chapitre du même nom), pour la valeur propre 1,

est un vecteur propre de P (cf. chapitre d'Algèbre Linéaire).

Nous en verrons un exemple trivial dans le chapitre de Théorie des Graphes qui sera redéveloppé sous forme détaillée et complète ainsi que dans le chapitre de Théorie Des Jeux Et De La Décision dans le cadre de la pharmaco-économie. Mais signalons également que les chaînes de Markov sont également utilisées le domaine de la casse de mots de passe informatiques en météorologie:

ou dans le domaine médical, financier (MCMC), des transports, du marketing, etc.

Signalons également une égalité trivial à laquelle les mathématicien auraient donné le nom "d'équation de Chapman-Kolmogorov". Il s'agit simple de l'égalité suivante obtenue par récurrence (qui permet de gagner beaucoup de temps en termes de calculs appliqués):

Dans le domaine du language, à partir de l'analyse fréquentielle de séquence de mots, les ordinateurs arrivent à construire aussi des chaînes de Markov et donc à proposer une sémantique plus correcte lors de corrections grammaticales informatisées ou de transcription de écrite de présentations orales.

Enfin pour clore, donnons quelques définitions de vocabulaire complémentaires courantes que l'on retrouvera dans différentes chapitres comme celui de Techniques de Gestion ou de Génie Industriel.

D1. Une chaîne de Markov est dite "chaîne de Markov irréductible" si tous les états sont liés aux autres (c'est le cas de la chaîne dans la figure ci-dessus).

D2. Une chaîne de Markov est dite "chaîne de Markov absorbante" si un quelconque des états de la chaîne absorbe les transitions (donc rien n'en sort pour dire simplement les choses!).

- Probabilités et statistiques, J. Istas, Éditions Dunod, ISBN10: 2729879889 (166 pages) - Imprimé en 2000