
DYNAMIQUE DES POPULATIONS | THÉORIE
DES JEUX ET DE LA DÉCISION | ÉCONOMIE
TECHNIQUES DE GESTION | MUSIQUE MATHÉMATIQUE
65.
THÉORIE
DES JEUX ET DE LA DÉCISION |
Dernière mise à jour de ce chapitre:
2017-12-31 18:00:04 | {oUUID 1.809}
Version: 3.1 Révision 7 | Avancement:
~95%
vues
depuis
le 2012-01-01:
25'370
LISTE DES SUJETS TRAITÉS SUR CETTE PAGE
La
théorie
de la décision et des jeux dépasse
très largement le cadre étroit des jeux de société,
même si ces
derniers ont constitué son premier objet d'étude
et lui ont donné
son nom dans la plupart des ouvrages disponibles dans le commerce.
Par ailleurs, les deux théories
sont très proches l'une de l'autre d'où le fait
qu'elles soient très souvent non différenciées
dans la littérature.
Définition:
D1. La "théorie
des jeux" est l'étude des modèles de
prise de décision en avenir incertain non probabilisable.
D2. La "théorie
de la décision" (appelée aussi parfois "analyse
décisionnelle") est l'étude
des modèles
de prise de décision
en avenir incertain probabilisable (objectivement ou subjectivement).
Chacune des méthodes d'analyse de ces deux théories
se fait principalement sous forme tabulaire (tableau) ou sous la
forme d'un arbre vertical
ou horizontal.
Voici un schéma assez connu par les coordinateurs de projets
qui résume assez bien la situation globale:

Figure: 65.1 - Classification élémentaire des techniques de décision
Ces
outils ont pour objectif de tenter de formaliser comment
statuer
que telle configuration ou décision est meilleure
qu'une autre? Nous chercherons pour cela à trouver l'optimum
de certains paramètres qui permettent de quantifier la
qualité stratégique
d'une situation. Il faut également déterminer quelles
conditions conduisent à une configuration qui est jugée
optimale.
La théorie des jeux et de la décision est aujourd'hui
assez répandue et utilisée dans les milieux
universitaires, non seulement en économie (finance d'entreprise
particulièrement), mais également par toute une
classe d'autres sciences dans lesquelles l'étude des situations
de confits est pertinente: sociologie, biologie, évolution,
informatique (jeux vidéo), marketing...
Remarque: Dans le monde de l'industrie les techniques de décisions
sont inconnues de la quasi-totalité des dirigeants dont
les choix sont souvent plus qualitatifs, instinctifs que scientifiques...
Nous tenterons, comme toujours
sur ce site, de minimiser au mieux le nombre de définitions
et concepts afin de ne pas noyer la rigueur de l'analyse mathématique
sous le chaos d'un vocabulaire inutile et non nécessaire
à une telle analyse (et dans le cadre de la théorie
de jeux c'est un peu comme dans la théorie des graphes
vraiment le cauchemar!).
Définition: Un "jeu"
est une situation où des joueurs
sont conduits à faire des choix stratégiques
parmi un certain nombre d'actions possibles, et ce dans le
cadre défini
à l'avance par les "règles
du jeu",
le résultat
de ces choix constituant une "issue
du jeu", à laquelle
est associé un "gain"
(ou payement), positif ou négatif,
pour chacun des participants.
Remarque: Un joueur peut être une personne, un groupe
de personnes, une société, une région, un
parti politique, un pays ou la Nature...
Postulats (nous les retrouverons
en économétrie):
P1. Le marché est
régi par la compétition et la coopération...
P2. Les comportements des
agents économiques sont rationnels (...)
P3. Il est possible de formaliser
les comportements compétitifs
P4. Tous les phénomènes
compétitifs ont une dimension utilitaire
Nous différencions
et définissons quatre types de situations (que nous formaliserons
plus loin):
D1. Les "jeux
coopératifs
ou non-coopératifs": un jeu est dit coopératif
lorsque les joueurs peuvent communiquer librement entre eux
et passer des
accords (par ex. sous forme d'un contrat). Ils forment alors une
coalition et recherchent l'intérêt général
suivi d'un partage des gains entre tous les joueurs. Dans
un jeu non-coopératif, les joueurs (qui ne communiquent
pas ou ne peuvent pas communiquer entre eux) agissent selon
le principe
de
rationalité économique: chacun cherche à prendre
les meilleures décisions pour lui-même (c'est à
dire cherche à maximiser égoïstement ses gains
individuels). Ce dernier type de jeu fait intervenir les probabilités.
D2. Les "jeux à somme nulle
ou non nulle": un jeu est dit à "somme
nulle"
lorsque la somme des gains des joueurs est constante (ou par
le choix subtil
d'une fonction d'utilité peut l'être...) ou autrement
dit: ce que l'un gagne est nécessairement perdu par un
autre (échecs, poker et certains disent que la bourse
est aussi un jeu à somme nulle mais en réalité c'est faux
quand on y réléchit de manière globale…).
Les jeux de société
sont souvent des jeux à somme nulle mais les situations
réelles
sont souvent mieux décrites par les jeux non-coopératifs
à somme non nulle car certaines issues sont profitables
pour tous, ou dommageables pour tous (vie politique, situations
d'affaires…).
Remarques:
R1. Certains théoriciens critiquent les jeux à somme
nulle, au moins dans le giron des situations économiques,
aux motifs qu'un échange économique est en principe
mutuellement avantageux et que les jeux à somme nulle seraient
totalement irréalistes.
R2. Les jeux à somme nulle sont parfois appelés
"jeux antagonistes".
R3. Depuis l'invention de l'arme atomique, l'équilibre
de la terreur repose sur la doctrine de dissuasion offensive. Contrés
par les capacités
réciproques à s'infliger des dégâts
colossaux, les arsenaux nucléaires respectifs s'auto-annulent,
dans un jeu
à somme nulle, par un principe de destruction mutuelle
assurée.
D3. Les "jeux
avec ou sans équilibre": un jeu à somme
non nulle coopératif
ou non est dit avec "équilibre
de Nash" s'il existe
un couple de stratégies (dans le cas d'un jeu à deux
joueurs) tel qu'aucun des joueurs n'a intérêt à
changer unilatéralement de stratégie et ceci afin
de s'assurer le maximum des minimum (le "maximin") des
gains.
D4. Les "jeux
compétitifs
ou non-compétitifs": un jeu non-compétitif
est à l'opposé
d'un jeu compétitif tel que par définition, lorsque
tout couple de stratégies (dans le cas d'un jeu à
deux joueurs) est tel qu'il fait perdre ou gagner simultanément
à tous les joueurs un gain donné (quand je perds
quelque chose, tu perds quelque chose, quand je gagne quelque
chose tu gagnes
aussi quelque chose).
REPRÉSENTATIONS DE JEUX
Il existe différentes
manières de formaliser la théorie des jeux et
de la décision et ce d'autant plus suivant le type de situations
dont il s'agit. Ainsi,
nous distinguons:
1. Les "formes
extensives"
qui sont des formes synoptiques (arbre, branche, feuille) utiles
à une compréhension simple des stratégies
possibles et où l'issue d'un jeu est assimilée à une
feuille dans laquelle nous retrouvons le vecteur des gains (ou "payements")
respectifs des joueurs. Ce genre de représentation devient
compliqué
(longue à dessiner)
lors de jeux répétitifs.
Lorsqu'une forme extensive fait appel aux probabilités,
nous faisons alors référence à un "arbre
de décision", car comme nous l'avons
mentionné au début, qui dit intervention des probabilités
dit théorie à part
entière:
la théorie de la décision.
2. Les "formes
normales"
qui permettent de réduire considérablement la taille
et le temps de représentation graphique d'un jeu sous forme
d'un tableau (matrice) de gains (ou "payements") mais
qui sont inadaptées
aux jeux répétitifs.
Deux sous-catégories
principales peuvent en plus être distinguées (il en existe donc
d'autres!):
- Les "formes
normales des jeux à somme nulle" (jeux strictement
compétitifs)
où selon un choix adapté, il est possible
de simplifier la représentation de la matrice (ou "bimatrice")
en demi-matrice puisque les gains sont égaux et opposés
pour les joueurs pour chaque stratégie donnée.
- Les "formes
normales des jeux à somme non nulle" (jeux compétitifs).
Remarque: Chaque cellule du tableau/matrice contient donc un "vecteur"
dont les composantes sont les gains respectifs des joueurs. Si
le jeu est à somme nulle chaque cellule ne contient qu'une
seule valeur puisque ce qui est gagné par un joueur est
perdu par l'autre. Nous en verrons de nombreux exemples.
3. Les "formes
ensemblistes"
qui ont une approche ensembliste orientée probabiliste qui va nous
permettre d'étudier la dernière forme ci-dessous.
4. Les "formes
graphiques"
qui sont sympathiques à regarder et que nous introduirons
comme approche complémentaire car faisant appel à la
recherche opérationnelle (cf. chapitre
de Méthodes
Numériques).
FORME EXTENSIVE D'UN JEU
Les règles d'un jeu stratégique et les gains contingents
qui y sont associés peuvent donc être représentés
sous une forme extensive plus couramment nommée par les
spécialistes "arbre
de Kuhn".
Exemple:
Nous considérons
deux firmes d'ordinateurs qui ont à faire un choix de système
d'exploitation. La compatibilité entre les systèmes
serait socialement préférable,
mais pour des raisons liées à l'histoire des deux firmes,
chacune préférerait que ce soit l'autre qui fasse
l'effort de s'adapter. Si les deux firmes choisissent CAM, MBI
( )
gagne 600 M$ et Poire ( )
200 M$. Si elles choisissent MAC, c'est Poire qui gagne 600 M$
et MBI 200 M$. S'ils ne sont pas compatibles, ils gagnent chacun
100
M$.
Remarque: Nous appelons ce type de jeu, un "jeu
de coordination". Par exemple, le choix de standards
de télévision ou de lecteur des Mac et PC correspondent
à ce type de jeux. Chaque constructeur voudrait imposer
son propre standard mais en cas de désaccord, les consommateurs
pourraient refuser d'acheter le produit.
Les firmes
jouent séquentiellement tel que le jeu puisse être représenté
sous la forme d'un arbre de décision:

Figure: 65.2 - Jeu séquentiel sous forme d'un arbre de décision (ou arbre de Kuhn)
Remarques:
R1. La structure informationnelle mise en évidence fait
référence à l'information dont dispose chaque joueur à chaque noeud
de décision du jeu.
R2. MAC/CAM est un jeu à "information
parfaite" dans le sens que les joueurs connaissent
exactement l'éventail de leurs stratégies et
de celles de leur adversaire et les conséquences précises
de ces stratégies.
Ainsi, chaque noeud de la forme extensive est visible par les joueurs
(nous définirons le concept d'information parfaite de
manière
formelle un peu plus loin).
Une analyse plus simple de
la meilleure stratégie à adopter dans le cadre d'un
jeu consiste à passer
directement à la forme normale comme nous le verrons un
peu plus loin (mais cette forme normale n'est pas adaptée
pour une forme extensive d'une décision).
FORME EXTENSIVE D'UNE DÉCISION
Comme
nous l'avons mentionné au début de ce chapitre, les
théories des
jeux et de la décision se différencient par le fait
que les données
de départ de la première se trouvent dans un univers
totalement déterministe
alors que pour la seconde, elles sont totalement probabilistes.
Ce dernier contexte est tellement important dans l'industrie qu'il
existe comme nous allons le voir de suite des logiciels (@Risk,
Isograph, Treeage) spécialisés
sur le marché pour la gestion des formes extensives (ces
dernières faisant partie intégrante des méthodes
de gestion de risque de la norme ISO 31010).
Exemples:
E1. Le cas de décision le plus simple dans l'industrie
est l'analyse par arbres d'événements qui fait appel
(lorsque les probabilités
sont fixes) uniquement aux axiomes élémentaires des probabilités
(cf.
chapitre de Probabilités). Si les probabilités
ne sont pas fixes (ce qui est fréquent dans la réalité),
il faudra faire appel à
des logiciels intégrant les méthodes de Monte-Carlo
(cf.
chapitre de Méthodes Numériques).
L'analyse par arbre d'événements est une technique
graphique permettant de représenter les séquences
d'événements mutuellement exclusifs
suivant un événement initiateur dépendant
du fonctionnement/non fonctionnement (ou enclenchement/non enclenchement)
de divers systèmes
conçus pour limiter
ses conséquences.
Voici un exemple simple d'arbre d'événement effectué et
automatisé par mes soins au
niveau des calculs avec le logiciel bureautique Microsoft Office Visio:

Figure: 65.3 - Arbre d'événements avec probabilités fixes sous MS Office Visio
La fréquence annuelle dans la colonne se trouvant à l'extrême
droite du tableau (les feuilles) est simplement égale à l'estimation
de la fréquence annuelle de l'événement initiateur
multipliée par
le
produit
des
probabilités d'une branche telle que:
(65.1)
et il faut bien évidemment faire attention à ce que la somme des
probabilités dans chaque branche soit égale à 100%.
E2. Cet exemple va être plus compliqué et nettement
plus long que l'analyse par arbre d'événements vue
avant. Imaginons une société informatique B en
concurrence potentielle, pour une migration informatique internationale
chez X avec une autre société A (cette
dernière pouvant être vue comme un ensemble de concurrents
aussi!).
En simplifiant quelque peu, mais sans être toutefois hors de
la réalité, considérons que deux choix sont ouverts à B:
viser "cher" ou viser "bas".
Supposons que nous sachions également que dans le passé B a
soumis une proposition pour chaque appel d'offres de ce type, alors
que le groupe A ne l'a fait que dans 60% des cas (pas de
fonction de distribution de probabilité dans notre scénario!).
Nous savons également que:
- Si B soumet cher et est le seul à soumettre une
proposition, son bénéfice attendu est de 22 millions.
- Si B soumet un prix élevé mais se trouve en concurrence
avec le groupe A, il obtiendra le contrat selon le niveau
de prix demandé par le groupe A. Dans ce cas, il sait qu'il
obtiendra en moyenne 1 million.
- Si enfin B soumet à un prix bas, il est sûr d'obtenir
le contrat et de réaliser un bénéfice de 10 millions.
Donc dans le cadre où le choix du projet est déterminé uniquement
par son prix (au détriment de la qualité comme souvent
dans la réalité...)
les questions qui se posent sont alors les suivantes:
Q1. Que doit faire B, si aucune information complémentaire
ne peut être obtenue?
Ceci constitue une situation du type: "décision
sans informations"
Q2. À supposer qu'un espion au sein du groupe A puisse
informer B si
le groupe A soumettra une offre ou non, combien vaudrait
cette information pour B?
Ceci constitue une situation du type: "décision avec information
parfaite"
Q3. Une société de conseil spécialisée
peut donner son avis, mais son expertise, chère, s'élève à 1
million par étude.
Pour envisager le recours à ses services, nous savons que,
dans le passé, sur
les 30 fois où le groupe A avait en fait soumis une proposition,
la société de conseil l'avait prévu 24 fois.
Et, sur les 20 fois où il n'en avait pas soumis, elle l'avait prévu
17 fois. Faut-il lui commander une étude (bon de toute façon
dans la réalité ce
genre d'information est quasi impossible à obtenir...)?
Ceci constitue une situation du type: "décision avec information
imparfaite"
S1. Pour répondre à la première question
(Q1), nous représentons tout
d'abord le problème à résoudre sous la forme
graphique d'un arbre de décision (qui est pour l'instant
assez simple à mettre
aussi sous forme de tableau) avec le logiciel
TreeAge par exemple:

Figure: 65.4 - Arbre de décision sans informations avec TreeAge
Indiquons qu'il est possible de faire le même
type d'arbres avec MS Office Visio mais la modélisation
de Monte-Carlo n'y est pas incorporée et la création
des formules prend beaucoup de temps (compter un facteur temps
de 10 à 20 par rapport à TreeAge, Isograph ou @Risk).
Ensuite, en lançant le calcul de l'espérance à chaque
branchement, appelée "valeur
monétaire espérée" (VME),
TreeAge nous donne simplement (ce logiciel a une option pour faire
de la
modélisation
de Monte-Carlo mais l'exemple ici étant avec
des probabilités fixes cette option est inutile à ce
niveau):

Figure: 65.5 - Espérances calculées sur l'arbre de décision
Ainsi, la réponse à la première question est que la stratégie
donnant l'espérance de gain la plus grande est la stratégie "Pas
Cher" car il y a un gain espéré de 10 millions.
Avec la première décision (Cher) nous ne gagnerions
en moyenne que:
(65.2)
Remarque: Dans les arbres de décision construits avec
TreeAge une règle de base est d'avoir à chaque branche
probabiliste la somme des probabilités qui vaut 1!
S2. Pour répondre à la deuxième question (Q2) qui
est de connaître
la valeur financière de l'information donnée par
l'espion, nous devons d'abord construire l'arbre (bon l'exemple
est tellement simple
qu'ici ce n'est pas vraiment nécessaire mais bon...) d'une
situation dite de concurrence à "information parfaite" (car
l'espion peut nous fournir une information tout à fait sûre).
L'arbre est facile à construire. Si l'espion nous dit que le
groupe A va faire une offre, alors nous allons devoir proposer
l'offre la moins chère. Dans le cas contraire, nous allons proposer
l'offre la plus chère. Le scénario est donc le suivant:
Figure: 65.6 - Arbre de décision avec information parfaite sous TreeAge
La probabilité qu'il y ait concurrence est de 60% et 40%
qu'il n'y en ait pas. Donc "l'espérance de la valeur
monnétaire de l'information parfaite" (EVMIP) est dans une situation à information
parfaite:
(65.3)
Donc par rapport à la meilleure situation précédente nous avons
un delta de 4.8 millions. C'est donc la valeur de l'information
parfaite
de l'espion.
S3. Concernant la troisième question (Q3) qui consiste à déterminer
la valeur de l'information imparfaite fournie par une société de
conseil. La seule certitude de bon sens que nous ayons est que
cette information ne peut avoir une valeur supérieure à celle
de l'information parfaite: elle aura donc une valeur comprise entre
0 et 4.8 millions.
Pour commencer, rappelons que selon l'énoncé,
nous pensons que pour le mandat actuel, il y a 60% de probabilité qu'il
y ait concurrence et la société de conseil dans le
passé a eu 80% du
temps raison (24 fois sur 30) lorsqu'elle avait dit qu'il y aurait
concurrence (et donc 20% des autres fois tort...).
Respectivement, nous pensons pour le mandat actuel qu'il y a
40% de probabilité qu'il y ait non concurrence (1-60%) et
la société de
conseil dans le passé au eu 85% du temps raison (17 fois
sur 20) lorsqu'elle avait dit qu'il n'y aurait pas de concurrence
(et donc
15% des autres fois tort...).
Ce qui se résume sous forme de tableau:
|
|
Prévisions |
Proba. |
Concurrence |
Sans concurrence |
Réalité |
Concurrence |
60% |
80% |
20% |
Sans concurrence |
40% |
15% |
85% |
Tableau: 65.1
- Décision avec information imparfaite (forme initiale)
Nous aimerions maintenant:
1. Calculer la probabilité qu'il y ait réellement
concurrence ET que la société de conseil ait
prévu de la concurrence.
2. Calculer la probabilité qu'il n'y ait réellement pas
de concurrence ET que la société de conseil ait prévu
de la concurrence.
3. Calculer la probabilité qu'il n'y ait réellement pas
de concurrence ET que la société de conseil ait prévu
pas de concurrence.
4. Calculer la probabilité qu'il y ait réellement concurrence
ET que la société de conseil ait prévu pas de concurrence.
Pour calculer ces probabilités, nous allons utiliser
la formule de Bayes démontrée dans le chapitre de
Probabilités. Ainsi
pour rappel, les probabilités a posteriori et a priori sont
données
par:
et
(65.4)
d'où:
(65.5)
Nous pouvons maintenant:
1. Calculer la probabilité qu'il y ait réellement concurrence
ET que la société de conseil ait prévu de la concurrence. Nous
avons alors en utilisant le tableau précédent:
(65.6)
où dans cette situation A est donc l'événement "il
y a eu réellement concurrence" et B est l'événement "prévision
de concurrence par la société de conseil". B/A est
donc l'événement "prévision de concurrence par la société de
conseil sachant qu'il y a eu réellement concurrence".
2. Calculer la probabilité qu'il n'y ait réellement pas concurrence
ET que la société de conseil ait prévu de la concurrence. Nous
avons alors en utilisant le tableau précédent:
(65.7)
où dans cette situation A est donc l'événement "il
y a eu réellement pas de concurrence" et B est l'événement "prévision
de concurrence par la société de conseil". B/A est
donc l'événement "prévision de concurrence par la société de
conseil sachant qu'il y a eu réellement pas de concurrence".
3. Calculer la probabilité qu'il n'y ait réellement
pas concurrence ET que la société de conseil ait
prévu pas concurrence. Nous avons
alors en utilisant le tableau précédent:
(65.8)
où dans cette situation A est donc l'événement "il
y a eu réellement pas de concurrence" et B est l'événement "prévision
de pas de concurrence par la société de conseil". B/A est
donc l'événement "prévision de pas concurrence par la société de
conseil sachant qu'il y a eu réellement pas de concurrence".
4. Calculer la probabilité qu'il y ait réellement concurrence
ET que la société de conseil ait prévu pas de concurrence.
Nous avons alors en utilisant le tableau précédent:
(65.9)
où dans cette situation A est donc l'événement "il
y a eu réellement concurrence" et B est l'événement "prévision
de pas de concurrence par la société de conseil". B/A est
donc l'événement "prévision de pas concurrence par la société de
conseil sachant qu'il y a eu réellement concurrence".
Nous avons alors le tableau suivant qui résume de manière utilisable
les scénarios possibles:
Réalité/Prévisions |
Concurrence |
Sans concurrence |
Concurrence |
48% |
12% |
Sans concurrence |
6% |
34% |
Total |
54% |
46% |
Tableau: 65.2
- Décision avec information imparfaite (forme finale)
À l'aide de ce tableau, nous vérifions bien que
la somme des 4 premières cases donne 100% (c'est-à-dire
l'ensemble des éventualités).
Nous voyons donc que 54% du temps la société de
conseil prévoit
de la concurrence (quelle que soit l'issue réelle) et 46%
du temps aucune concurrence (quelle que soit l'issue réelle).
Nous avons alors l'arbre de décision suivant dans le logiciel
TreeAge:

Figure: 65.7 - Arbre de décision avec information imparfaite avec TreeAge
Ce qui donne après calculs:

Figure: 65.8 - Espérances calculées sur l'arbre de décision
Nous nous retrouvons donc avec une espérance de gain de
13 millions moins le 1 million de paiement pour la société de
conseil cela fait 12 millions.
Ainsi, la valeur de l'information imparfaite est de 2 millions
par rapport aux 4.8 que rapporte l'information parfaite. Ce résultat
est donc tout à fait logique.
Remarques:
R1. Ce type d'arbre est souvent
utilisé en pharmaco-économie
(analyse des coûts). Ainsi, la racine de l'arbre sera une
infection X pour laquelle il existe plusieurs antibiotiques (branche
A/B) et dont
chacun à deux
issues (traitement réussi/raté) avec deux
résultats
possibles (effets secondaires oui/non). Une probabilité est
associée à chaque noeud et pour les
noeuds terminaux des coûts de traitement. Ainsi,
en calculant l'espérance, il est
possible de déterminer le choix économique du meilleur
antibiotique pour l'institut médical
(évidemment ce n'est utile déontologiquement que
lorsque le taux de succès des deux antibiotiques est proche
et que le taux d'effets secondaires oui/non l'est aussi... sinon
cette
méthode
ferait scandale!).
R2. Dans l'industrie, mes clients utilisent ces arbres avec
des distributions de probabilités définies sur
chaque noeud. Ils font ensuite une simulation de Monte-Carlo
sur l'ensemble et
font une analyse de la sensibilité (graphe Tornado) avec
des suites décisionnelles comme celle de @Risk de Palisade.
OPTIONS RÉELLES
Lors de l'utilisation d'arbres pour les décisions d'investissements
dans des projets (nous parlons alors "d'analyse
d'investissement par options réelles") il faut prendre en compte que chaque
série
parallèle de branches représente une période
du projet (mois, trimestre, semestre ou année). Il ne faut
pas oublier alors d'actualiser les valeurs aux taux de rendement
sans risque du marché (cf. chapitre
d'Économie) correspondant à chaque
période. De plus l'arbre permet aussi de calculer la valeur
d'option de l'investissement, ce qui est parfois demandé par
la direction.
Considérons comme cas d'illustration la situation suivante
à une unique période temporelle:

Figure: 65.9 - Arbre d'investissement complet (non réduit)
Dans un logiciel cela donnera typiquement (malheureusement les
coûts des options sont toujours cachés dans le total
de la branche dans les logiciels spécialisés, raison
pour laquelle je préfère dessiner mes propres arbres
dans Microsoft Excel):

Figure: 65.10 - Arbre précédent représenté dans le logiciel Precision Tree de Palisade
Alors nous avons bien évidemment:
(65.10)
Car l'arbre se réduit à:

Figure: 65.11 - Arbre d'investissement réduit optimiste
Mais qu'en est-il de la valeur actuelle nette (VAN/N.P.V)?
Eh bien ce type de logiciels nous permettent facilement d'intégrer
ce type de calcul avec ou sans simulation de Monte-Carlo. Ainsi,
si le taux sans risque du marché est à 10% sur un
an, nous avons alors (cf. chapitre d'Économie pour les notions
sur la Valeur Actuelle Nette):
(65.11)
Maintenant il peut être intéressant
(même exigé par la direction!) de calculer le "prix
de l'option d'investir". Dans la configuration pessimiste
notre arbre devient:

Figure: 65.12 - Arbre d'investissement réduit optimiste + pessimiste
Nous avons alors pour cette configuration:
(65.12)
Le prix de l'option réelle d'investissement
(expected Option Value) est alors:
(65.13)
FORME NORMALE D'UN JEU
Pour passer
à la forme normale ou encore "forme
stratégique",
nous définissons une stratégie comme un plan
d'action complet pour chaque joueur, qui spécifie un choix
pour chaque noeud de l'arbre et donc pour chaque situation pouvant
survenir au cours du jeu. La "matrice
des gains" représente la situation stratégique
des joueurs et les gains qu'ils
recevront pour chaque stratégie.
Nous reprenons l'exemple
précédant MAC/CAM et obtenons:
J1
/ J2 |
CAM |
MAC |
CAM |
600
, 200 |
100
, 100 |
MAC |
100
, 100 |
200
, 600 |
Tableau: 65.3
- Matrice des gains d'un jeu à somme non nulle
Il s'agit donc d'une simple forme tabulaire
du jeu.
Remarques:
R1. Nous voyons dans cette matrice que les intérêts
des deux entreprises ne sont pas complètement opposés,
elles progressent à chaque fois dans la même direction
lorsque les stratégies sont opposées (si un perd,
l'autre perd aussi et inversement). Ainsi, le jeu MAC/CAM est
un
jeu dont les gains ne progressent pas dans des directions (stratégies)
opposées. Nous parlons alors de "jeu
non strictement compétitif" (nous définirons
ce concept de manière formelle un peu plus loin).
R2. Nous voyons également que quelle que soit la stratégie
choisie par un des joueurs, chaque choix possible par l'autre
joueur
amènera toujours à des gains équivalents.
Dès
lors, nous disons alors que c'est un "jeu
sans tactique prudente".
Définition: Une stratégie donnée
est dite à "tactique
prudente" (c'est le choix du numéro de la
ligne pour le joueur ligne, ou du numéro de la colonne
pour le joueur colonne) lorsque le gain d'un des joueurs est
tel
que lorsque
par rapport à une stratégie choisie, l'ensemble
des choix de son concurrent apporte un gain maximal à ce
dernier. Le gain minimal assuré de
est appelé le "niveau de sécurité"
de .
Exemple:
J1
/ J2 |
b1
|
b2
|
b3
|
b4
|
a1
|
5
, 5 |
6
, 4 |
0
, 10 |
4
, 6 |
a2
|
1
, 9 |
7
, 3 |
5
, 5 |
6
, 4 |
a3
|
6
, 4 |
7
, 3 |
7
, 3 |
8
, 1 |
a4
|
4
, 6 |
8
, 1 |
0
, 10 |
2
, 8 |
a5 |
3
, 7 |
5
, 5 |
9
, 0 |
0
, 10 |
Tableau: 65.4
- Matrice des gains d'un jeu avec tactique prudente
Le joueur
A
peut penser que le joueur
B
est très perspicace,
ou a beaucoup de chance, et est ainsi en mesure de choisir la
meilleure réponse possible à toute tactique de A. Ainsi:
- Si A
choisit a1,
B
le devinant choisirait b3,
et A
aurait gagné 0 (tandis que B aurait gagné 10)
- Si A
choisit a2,
B
le devinant choisirait b1,
et A
aurait gagné 1 (tandis que B aurait
gagné 9)
- Si A
choisit a3,
B
le devinant choisirait b1,
et A
aurait gagné 6 (tandis que B aurait
gagné 4)
-
Si A
choisit a4,
B
le devinant choisirait b3,
et A
aurait gagné 0 (tandis que B aurait
gagné 10)
-
Si A
choisit a5,
B
le devinant choisirait b4, et A
aurait gagné 0 (tandis que B aurait
gagné 10)
Le choix prudent
de A
est donc a3,
qui lui assure de gagner au moins 6.
Ce gain minimal assuré est le niveau de sécurité.
En faisant de même pour B
s'il redoute l'extrême
perspicacité de A
le choix est b1.
Cette tactique lui assure un gain de 4, qui est aussi son niveau
de sécurité.
Si nous étudions
le jeu MAC/CAM par sa matrice de gains, nous pouvons nous rendre
compte qu'il y a deux issues remarquables où le gain des
deux entreprises est maximum par rapport aux autres stratégies.
Ces deux issues sont intéressantes à plus d'un titre:
Effectivement,
les deux entreprises n'ont aucun regret quant à leur choix
de stratégie. S'ils considèrent la stratégie
de leur adversaire comme inéluctable, leur propre choix
de stratégie est le meilleur possible. Nous disons
que les deux issues sont des "équilibres
de Nash"
(nous définirons
ce concept de manière formelle un peu plus loin).
L'équilibre de Nash caractérise ainsi en quelque
sorte la rationalité
individuelle!
Remarque: Le jeu MAC/CAM comporte deux équilibres
de Nash. Dès lors, nous ne sommes pas capables, sans aucune
information complémentaire, de prédire quelle sera
exactement la solution du jeu. Les deux résultats sont également
vraisemblables.
C'est ainsi
que la théorie des jeux fait apparaître la stratégie
sociale la plus favorable aux deux joueurs: que les deux joueurs
adoptent au moins le même système. Quant à
savoir lequel... le jeu devra dès lors être coopératif.
Dans l'exemple
précédent aussi, la conjonction des tactiques prudentes
(a3,b1)
constitue un équilibre
de Nash (dans le sens où chacun des joueurs n'a pas intérêt
à changer unilatéralement de stratégie s'il
veut préserver le gain minimum). Cela tient à une
particularité de ce jeu ! En d'autres termes:
1. Il existe
de nombreux jeux qui n'ont pas d'équilibre
2. Il existe
de nombreux jeux qui ont des équilibres qui ne correspondent
pas à la conjonction des tactiques prudentes.
Remarque: Si dans un jeu, un couple d'issues est tel
qu'il est impossible d'améliorer le score de l'un des deux
joueurs sans diminuer le score de l'autre, nous disons que ces
issues
sont
"pareto-optimales" ou "pareto-efficientes"
(nous définirons ce concept de manière formelle un
peu plus loin).
Exemple:
Dans ce jeu,
deux joueurs
s'affrontent à pierre, ciseaux, papier (PCP...). De façon
générale, la pierre bat les ciseaux (en les émoussant),
les ciseaux battent le papier (en le coupant), le papier bat
la pierre (en l'enveloppant). Ainsi chaque coup bat un autre
coup, fait match nul contre le deuxième (son homologue)
et est battu par le troisième (donc il n'y a pas de stratégie
gagnante et in extenso il n'y pas d'équilibre de Nash).
La forme
extensive de ce jeu est trivialement:

Figure: 65.13 - Forme extensive du jeu (arbre de Kuhn)
Pour faire
apparaître la simultanéité du jeu sur la
représentation,
nous avons entouré les ensembles d'informations.
sait que
a choisi un élément, mais il ne sait pas lequel,
donc il ne connaît pas le noeud exact où son propre
choix va intervenir, et donc il est incapable de déterminer
l'issue du jeu qui va être atteinte. Le jeu est donc
à "information
imparfaite".
Sous forme
normale, nous avons donc:
J1
/ J2 |
Pierre |
Ciseaux |
Papier |
Pierre |
0
, 0 |
1
, -1 |
-1
, 1 |
Ciseaux |
-1
, 1 |
0
, 0 |
1
, -1 |
Papier |
1
, -1 |
-
1 , 1 |
0
, 0 |
Tableau: 65.5
- Matrice des gains d'un jeu à somme nulle
Ce jeu est
un jeu à somme nulle dans le sens où tout ce
qui est gagné par l'un est perdu par l'autre. En d'autres
termes, nous avons déjà vu que nous pouvions parler
dès lors de jeux "strictement
compétitifs".
Les jeux
à somme nulle ont ceci de particulier en plus qu'il
est toujours possible comme nous l'avons déjà mentionné de
les représenter
par leur demi-matrice (par rapport à un seul joueur
donc) qui résume
à elle seule tout le jeu puisque ce qui est gagné
par ce joueur est perdu par l'autre et inversement:
J1
/ J2 |
Pierre |
Ciseaux |
Papier |
Pierre |
0 |
1 |
-1 |
Ciseaux |
-1 |
0 |
1 |
Papier |
1 |
-
1 |
0 |
Tableau: 65.6
- Demi-matrice des gains du jeu
Au besoin,
si les gains et pertes respectives de jeu n'ont pas le même
"delta", il suffit de définir une fonction
d'utilité adéquate pour l'autre joueur telle
qu'il soit toujours possible pour n'importe quel jeu strictement
compétitif où les gains ne sont pas opposés
et égaux d'être mis sous la forme d'une demi-matrice.
Nous démontrerons qu'il existe une telle fonction
d'utilité.
Remarque: Sur la demi-matrice d'un jeu à somme nulle, il
est très facile de reconnaître s'il existe un équilibre
de Nash ou non. Par exemple:
Tableau: 65.7
- Demi-matrice sans équilibre de Nash
Dans ce jeu, la ligne 2 est la tactique prudente du joueur ligne
et le joueur colonne choisira la colonne 1 comme tactique prudente
dans laquelle ne se trouve pas la plus grande perte. Dès
lors, le joueur ligne aura intérêt à se déplacer
en première ligne donc les tactiques prudentes conjointes
ne sont pas un équilibre et par ailleurs, il n'y a pas
d'équilibre
de Nash!!
Dans le duel tactique
ainsi défini, l'espérance du joueur ligne
est le maximum des minimums de lignes, c'est-à-dire
le "maximin", tandis que l'espérance du
joueur colonne est le minimum des maximums de colonnes,
c'est-à-dire le "minimax".
Définitions:
D1. Le "maximin",
appelé
aussi parfois "critère de
Wald", est un
critère pessimiste. Il s'agit effectivement selon
ce critère, de maximiser le résultat minimum.
Pour le mettre en oeuvre, il convient dans un jeu à somme
nulle et à information parfaite:
- Pour chaque décision
(ou stratégie), de retenir le résultat le
plus faible - Parmi, les moins
bons résultats, choisir le plus élevé
des moins bons résultats des différentes stratégies.
Ce genre d'approche peut donc outre sous forme tabulaire
être représenté sous la forme d'un
arbre de décision.
D2. Le "maximax",
selon la même logique que le critère précédent
consiste à retenir le meilleur des résultats
des différentes stratégies possibles, c'est
donc un critère optimiste. Pour le mettre en
oeuvre, il convient dans un jeu à somme nulle
et à information parfaite:
- Pour chaque décision
(ou stratégie), de retenir le résultat le
plus attendu le plus élevé
- Parmi, les meilleurs
résultats, choisir le plus élevé des
meilleurs résultats des différentes stratégies.
D3. Le "minimax",
est un critère appelé parfois "critère
de Von Neumann" prudent qui consiste à retenir
le plus petit des meilleures résultats des stratégies
possibles. Pour le mettre en oeuvre, il convient dans
un jeu à somme nulle et à information
parfaite:
- Pour chaque décision (ou stratégie),
de retenir le résultat le plus attendu le plus élevé
- Parmi, les meilleurs résultats, choisir le
moins élevé des meilleurs résultats
des différentes stratégies.
Ce genre d'approche peut donc outre sous forme tabulaire être
représenté sous la forme d'un arbre
de décision.
Si et seulement si le maximin est égal au minimax,
leur valeur commune, qui est l'espérance commune
aux deux adversaires, est appelée la "valeur
du jeu"
(nous le démontrons juste quelques lignes en dessous), et
tout couple formé par une telle tactique prudente du joueur
ligne et une tactique prudente du joueur colonne défini
un
équilibre (pour cette raison l'exemple précédent
n'a pas d'équilibre).
Exemple:
Tableau: 65.8
- Demi-matrice avec équilibre de Nash
Dans
ce jeu, la ligne 1 est la meilleure tactique prudente du
joueur ligne et le joueur colonne choisira la colonne 1
comme tactique prudente dans laquelle se trouvent les plus
petites pertes. Dès lors, la cellule supérieure
gauche correspond aux tactiques prudentes conjointes et
correspond comme nous le voyons à un équilibre
de Nash.
Définition: Dans un jeu à somme
nulle nous appelons "col",
l'utilité (vue dans le sens du gain ou de la perte)
qui est à la fois minimum dans sa ligne et maximum
dans sa colonne (ce qui est le cas de l'exemple précédent
où l'équilibre est un col).
Démontrons
maintenant que dans tout jeu à somme nulle, si et
seulement si les niveaux de sécurité des deux
joueurs sont opposés (le minimax est égal
au maximin), la conjonction des tactiques prudentes est
toujours un équilibre.
Reprenons
la définition d'un couple formé: - d'une
tactique prudente
pour le joueur A,
lui assurant de gagner au moins 
- d'une tactique prudente
pour le joueur B,
lui assurant de gagner au moins 
Dans le
cas d'un jeu à somme nulle, nous pouvons toujours
redéfinir
la fonction d'utilité d'un des joueurs de manière
à obtenir
comme nous l'avons vu afin de pouvoir écrire la demi-matrice.
Dès lors, observons ce qu'il se passe (en se rappelant
bien que dans un tel jeu, le gain équivaut à
la perte donc par extension quand le gain est minimal pour
l'un la perte est minimale pour l'autre):
Le couple
,
comme tout couple qui contient ,
assure A de gagner au moins v et in extenso
assure B de gagner au moins -v (puisque ).
A
n'a donc aucun intérêt à s'écarter
unilatéralement de ,
puisque B s'est assuré de perdre au plus v
dans la stratégie de A. De même, B
n'a aucun intérêt à s'écarter unilatéralement
de la tactique ,
puisque A s'est assuré de gagner au moins v. Par conséquent,
dans le cas où les niveaux de sécurité
des deux joueurs sont égaux et opposés, la conjonction
des tactiques prudentes est un équilibre. Nous avons
déjà vu précédemment un exemple
dans lequel les niveaux n'étaient pas exactement opposés. JEUX
RÉPÉTITIFS
Supposons
qu'un homme
et une femme
aillent au cinéma. Une fois sur place, ils doivent
choisir entre aller voir un documentaire ou une comédie.
L'un des deux préfère les documentaires et
l'autre les comédies, mais tous deux préfèrent
voir un film ensemble plutôt que séparément:
c'est... la guerre des sexes (la G.D.S....)
Les stratégies
disponibles pour chacun des deux joueurs, en considérant
qu'ils font leur choix simultanément (ce qui est peu
vraisemblable dans un cas réel, la galanterie obligeant à désynchroniser
le jeu au profit de la femme:-) ), sont alors:
- Aller voir
un documentaire, ce que nous noterons Doc - Aller voir
une comédie, ce que nous noterons Com La matrice
des gains sera alors:
J1 / J2 |
Doc |
Com |
Doc |
2
, 3 |
1,
1 |
Com |
1
, 1 |
3
, 2 |
Tableau: 65.9
- Matrice pour jeu répétitif
Que l'on peut récrire sous la forme suivante:
J1 / J2 |
Doc |
Com |
Doc |
1 , 2 |
0, 0 |
Com |
0 , 0 |
2 , 1 |
Tableau: 65.10 - Matrice pour jeu répétitif
D'abord, nous
pouvons remarquer que GDS n'est pas un jeu strictement compétitif
(donc inutile d'essayer de le représenter sous la forme
d'une demi-matrice) et qu'il s'agit d'un jeu de coordination.
Deuxièmement, nous remarquons que les deux issues à
gain maximum sont des équilibres de Nash (nous ne pouvons
donc prédire l'issue du jeu). Donc il s'agit d'un jeu
à équilibre de Nash multiples.
Ce jeu a
cependant ceci de particulier par rapport aux précédents
ce que c'est un jeu à une seule étape.
Supposons ainsi maintenant que le couple retourne au cinéma
la semaine suivante, et qu'il doive à nouveau faire ce
choix. Nous pouvons de nouveau représenter cette situation
par un jeu, qui n'est en fait que la répétition
de G.D.S., notons le G.D.S.2.
Si nous considérons que lors de la deuxième
étape chacun des deux joueurs sait ce que l'autre a choisi
lors de la première étape, les stratégies
disponibles sont maintenant des stratégies conditionnelles:
elles peuvent tenir compte des coups joués par l'adversaire
lors d'étapes précédentes.
La description
de ces stratégies suit le schéma suivant: nous
jouons
au premier coup, puis si l'autre a choisi le documentaire lors
de la première sortie, alors nous jouons ,
sinon ,
avec
prenant leur valeur dans l'ensemble .
Nous noterons cette stratégie:
(65.14)
Nous pouvons
lire cette notation de la manière suivante: nous jouons
,
puis si nous nous retrouvons en
alors nous jouons ,
ou si nous nous retrouvons en
alors nous jouons .
Dans le cas G.D.S.2, nous avons donc 8 stratégies:
1. :
nous choisissons toujours le documentaire
2. : nous choisissons toujours le documentaire, sauf si la première
fois nous nous sommes retrouvé(e)s seul(e)s
3. : nous choisissons toujours le documentaire, sauf si la première
fois nous avons tous les deux choisi le documentaire
4. :
la première fois nous choisissons le documentaire et
la seconde, la comédie.
5. :
la première fois nous choisissons la comédie
et la seconde, le documentaire
6. :
nous choisissons toujours la comédie, sauf si la première
fois, nous nous sommes retrouvé(s) seul(e)s.
7. :
nous choisissons la comédie sauf si la première
fois, nous avons tous les deux choisi la comédie.
8. : nous choisissons toujours la comédie.
Pour chaque
issue de GDS2, les vecteurs d'utilité sont déterminés
en effectuant la somme des vecteurs obtenus pour chacune des étapes
considérées comme des issues de G.D.S.. Nous
dirons que G.D.S.2 est un "super jeu" dont G.D.S. est le "jeu
constitutif".
Définition: Un "équilibre
parfait en sous-jeux" correspond à
une combinaison stratégique dont les actions choisies
pour chaque sous-jeu sont des équilibres de Nash.
Remarque: Un "sous-jeu" est simplement
un sous-arbre de l'arbre de jeu.
Voyons maintenant
tous ces concepts de manière ensembliste (accrochez-vous
un peu ;-) )
FORME ENSEMBLISTE D'UN JEU
Nous avons
donc vu jusqu'à maintenant qu'il existe un certain nombre
d'éléments qui composent un jeu: les joueurs, les
actions et stratégies des joueurs, les déroulements
et les étapes du jeu, les résultats du jeu et les
informations dont disposent les joueurs de chaque choix d'action.
Définitions:
D1. Les règles
d'un jeu indiquent:
- La succession
des étapes du jeu, et l'ordre dans lequel interviennent
les joueurs
- Les actions
qui sont autorisées à chaque étape - Les informations
dont dispose le joueur chaque fois qu'il doit prendre une décision
Nous avons
vu qu'il y a deux formes de représentations possibles
pour un jeu jusqu'à maintenant. L'une d'entre elles utilise
un arbre (une forme extensive) et l'autre une table (forme normale).
Sous une expression
formelle cela donne:
D2. Un arbre
de jeu
est la donnée: - D'un ensemble
D de noeuds de décisions, ou situations de jeu
- D'un ensemble
I d'issues de jeu, avec
(donc un noeud n'est pas considéré comme
une issue!)
- D'un élément
de D et d'une fonction p de
dans D telle que:
(65.15)
appelée
"fonction prédécesseur", qui pour chaque situation
de jeu, ou issue, indique l'unique action (décision ou
situation, d'où le fait que nous enlevons au moins un élément
D de l'ensemble de départ) qui a permis d'arriver
à cette situation, ou issue. Pour déterminer
l'issue d'un jeu, il suffit de connaître les stratégies
utilisées par chacun des joueurs. Une stratégie
est une combinaison d'actions autorisées par les règles
du jeu jusqu'à la fin de celui-ci. Il existe plus précisément
trois types de stratégies. D3. Une "stratégie
pure" s pour un joueur n est une application de
l'ensemble
des noeuds de décision de ce joueur vers l'ensemble D
de tous les noeuds de décision du jeu telle que:
(65.16)
Plus simplement
dit, une stratégie pure est une stratégie ne
faisant intervenir aucune forme de hasard, qui est donc complètement
déterministe.
Remarque: La fonction stratégie pure n'est que
la fonction réciproque de p telle que  .
D4. Une "stratégie
mixte" pour un joueur n est une distribution de
probabilité
avec sur
l'ensemble de ses stratégies pures .
Exemple:
Les tirs aux buts (penaltys) sont une forme de jeu à stratégie
mixte. Effectivement, le gardien de but doit anticiper le tir
et
ne peut l'analyser. Il doit donc choisir au hasard s'il restera
au milieu, s'il ira à gauche ou à droite. Idem,
pour l'attaquant (normalement le gardien doit se lancer au moment
même
où l'attaquant tire) qui ne sachant pas où se lancera
le gardien tirera donc au hasard.
Remarques:
R1. Une stratégie
pure peut être regardée ainsi comme une stratégie
qui donne la probabilité 1 à
et 0 à toutes les autres.
R2. Dans notre définition de l'ensemble des stratégies,
il y a un nombre fini de stratégies pour chaque agent mais
en économie, les ensembles des stratégies sont
souvent continus et contiennent une infinité de stratégies
possibles (choix de quantité, de prix, etc.).
Naturellement,
le résultat obtenu par le joueur ne peut pas être
garanti de façon certaine, puisque le processus de choix
de la décision fait intervenir des probabilités.
Une stratégie
pure est donc une stratégie faisant le choix d'une parmi
toutes les stratégies mixtes et qui utilise celle-ci
durant toute la durée de jeu. Un joueur utilisant une
stratégie
mixte face à un joueur utilisant une stratégie
pure utilisera (sera forcé) donc lui aussi
une stratégie
pure pour une rencontre, mais n'utilisera pas toujours la même
stratégie pure lors de toutes leurs rencontres.
D5. Une "stratégie
de comportement" pour un joueur n est
un ensemble
où
est un élément de
(donc un numéro de noeud) et
une distribution de probabilité sur le sous-ensemble
des successeurs du noeud de décision i.
D6. Une "combinaison
stratégique" est un vecteur de stratégies
dont chaque
élément correspond à la stratégie
utilisée par un joueur participant au jeu. La donnée
d'une combinaison stratégique détermine donc
de manière complète l'issue du jeu.
Les joueurs
doivent avoir des préférences parmi les issues
qui sont à leur portée. C'est avec la définition
de ces préférences que nous pouvons caractériser
la rationalité d'un joueur. La relation de préférence
que nous noterons ,
est une relation binaire sur l'ensemble des issues d'un jeu.
Nous
noterons
et nous dirons que "x est au moins aussi bon que y".
Nous pouvons alors définir la préférence
stricte
telle que:
(65.17)
que nous lirons
"x est préféré à y",
et la relation d'indifférence:
(65.18)
Remarque: Nous réutiliserons ces concepts en économétrie
lors de notre étude de la théorie de la préférence.
D7. Une relation
de préférence
est dite "relation rationnelle",
si elle est complète
(réflexive)
et transitive. Dans ce cas, comme nous l'avons vu dans le chapitre
des Opérateurs (section Arithmétique), nous avons
affaire à un préordre.
D8. Une "fonction
d'utilité", ou encore "fonction
de paiement" ("payoff function"
en anglais) est une fonction de l'ensemble des issues d'un jeu
à n joueurs vers
qui associe les utilités retirées par chaque joueur.
Si U
est une fonction d'utilité, nous noterons
la fonction de l'ensemble des issues d'un jeu vers
correspondant aux utilités du joueur i. Une telle
fonction sera dite représentant de la relation de préférence
si pour toute issue ,
nous avons:
(65.19)
La théorie
de l'utilité dont fait usage la théorie des jeux
axiomatise le fait que seule cette notion de préférence
est importante. En bref, nous dirons que seul l'ordre de préférence
de l'utilité des issues est important, la valeur des
gains apportés par chaque issue étant sans
importance.
Nous pouvons
maintenant étendre la définition du jeu: D9. Un "jeu
sous forme développée"
est la donnée:
- d'un arbre
de jeu  - d'un ensemble
N de joueurs - d'une fonction
d'utilité U qui donne pour un joueur donné
son gain
- d'un ensemble
de partitions d'informations F, dont chaque élément
est une partition de D et indique les états du
jeu que le joueur est capable de distinguer
Remarque: Comme nous l'avons déjà précisé,
un jeu sous forme développée est également
dit "forme extensive", ou encore "arbre de Kuhn".
D10. Un jeu
est à "information complète" quand
chaque joueur connaît l'ensemble des composantes du jeu,
et à "information
incomplète" sinon. Il est à noter que de
parler d'un jeu à information complète revient à
dire que F ne contient qu'une seule partition et donc
que les joueurs n'ont qu'une seule vue sur l'arbre de jeu.
D11. Un jeu
est à "information parfaite" quand
l'unique élément
de F se réduit à une partition de D
où chaque noeud de décision forme un sous-ensemble,
c'est-à-dire que chaque élément de la partition
est un noeud de l'arbre et réciproquement. Plus simplement,
nous pouvons dire que dans ce cas les joueurs peuvent savoir à
chaque instant quel noeud de l'arbre est atteint. Dans le cas
contraire le jeu est dit à information imparfaite.
Remarque: Nous pouvons remarquer que tous les jeux simultanés,
c'est-à-dire dans lesquels les joueurs font leur choix
en même temps, sont des jeux à information imparfaite.
En effet, au moment de son choix, le joueur ne sait pas sur quel
noeud de décision il se trouve.
Maintenant
nous pouvons en venir à définir ce qu'est la matrice
des gains:
D12. Un "jeu
sous forme normale"
est la donnée:
- d'un ensemble
N de joueurs - d'un ensemble
S de combinaisons stratégiques - d'une fonction
d'utilité U définie sur S
Ainsi, un
jeu sous forme normale est également dit "jeu
sous forme stratégique".
Nous simplifions d'ailleurs la donnée du jeu à la
donnée de la fonction d'utilité, sous la forme
d'une matrice de gains (ou de paiements).
D13. Un jeu
est "concurrentiel pur" ou "strictement
compétitif" si:
(65.20)
Donc un jeu
est strictement compétitif si pour un ensemble couple
d'issues, les gains d'un au moins des joueurs diminuent. Si
les deux joueurs
ont pour un couple d'issues, leurs gains respectifs qui augmentent
ou diminuent, alors nous avons:
(65.21)
le jeu n'est
dès lors plus strictement positif. Nous en avons par ailleurs
donné des exemples au début de ce chapitre.
D14. Un jeu
strictement compétitif est un "jeu à somme nulle"
si:
(65.22)
Un jeu est
à somme nulle quand les intérêts des joueurs
sont diamétralement opposés. Dans un jeu à
deux joueurs à somme nulle, par exemple, ce qui est gagné
par l'un est perdu par l'autre. Ce terme trouve son origine dans
les jeux de salon comme le poker où un joueur qui veut
gagner de l'argent doit le faire aux dépens des autres.
Les échecs sont un jeu à somme nulle.
D15. Un "super jeu"
est la donnée:
- d'un jeu
constitutif 
- du nombre
de répétitions T
- du vecteur
de taux d'escompte d'utilité,
étant le taux d'escompte du joueur
(souvent pris comme égal à l'unité)
Ainsi, comme
nous en avons déjà fait mention lors de notre jeu
répétitif GDS2, nous considérons qu'à
une étape t le choix dicté par une combinaison
stratégique s au joueur n est
noté
et que l'utilité, pour ce même joueur, obtenue à
cette étape du jeu, c'est-à-dire l'utilité
issue du jeu constitutif correspondant, est notée ,
alors l'utilité associée à l'issue du super
jeu est:
(65.23)
il est clair
que si
nous retrouvons une définition intuitive simple de la cumulation
des gains.
FORME GRAPHIQUE D'UN JEU
Nous avons maintenant
amassé suffisamment
d'éléments pour avoir une approche probabiliste
et opérationnelle
de jeux à somme nulle relativement simples.
Comme il est toujours
relativement difficile de ne pas être trop théorique
pour que ce domaine reste compréhensible étudions
les formes graphiques via un exemple.
Considérons deux sociétés
que nous nommerons respectivement S1 et S2 qui
sont spécialisées dans
la vente à grande échelle d'un certain produit
et qui forment un oligopole bilatéral en concurrence parfaite
(cf.
chapitre d'Économie). La société S1
décide d'investir
un nouveau marché, constitué par un ensemble de
régions d'importances
comparables.
La pénétration dans différentes régions
s'opère
grâce à l'installation d'un présentoir dans
des chaînes de magasins C1 ou C2 dans
chacune des régions. Pour mieux motiver ses détaillants,
la société S1 ne
choisira qu'une seule chaîne de distribution (C1 ou C2)
par région pour vendre ses produits.
La société S2 ayant
pris connaissance du projet de la société S1 décide alors aussi d'investir
le marché de manière similaire.
Le problème pour chaque société est de savoir,
pour chaque région, s'il vaut mieux faire installer un présentoir
dans la chaîne de magasins C1 ou C2 ou ne pas en
faire installer du tout, c'est-à-dire nulle part (ce que nous
noterons NP).
Suite à une étude de marché (il faut bien
obtenir au moins quelques chiffres au départ pour faire des maths...)
la société S1 apprend que ses gains par rapport au concurrent
seraient ceux représentés dans le tableau ci-dessous:
S1 / S2 |
C1 |
C2 |
NP |
C1 |
0 |
2 |
4 |
C2 |
6 |
-3 |
8 |
NP |
-3 |
-5 |
0 |
Tableau: 65.11
- Préparation du jeu pour analyse graphique
La société S2 arrive
au même résultat
suite à une étude de marché (nous simplifions par
cette hypothèse
l'analyse du problème).
Remarques:
R1. Puisque tout
ce que gagne un concurrent serait perdu par l'autre, le jeu
est à somme
nulle (d'où le
fait qu'il n'y ait qu'une seule valeur dans chaque cellule)
R2. Nous supposerons que les deux sociétés ne peuvent et ne veulent
pas communiquer entre elles, en d'autres termes qu'il s'agit d'un
jeu non coopératif.
Commençons par analyser quelles sont les stratégies
qui n'ont aucun intérêt pour l'une ou l'autre des sociétés.
Pour cela, regardons
s'il y a une stratégie
qui ne sera jamais choisie par S1 quelle que soit la stratégie
de S2:
1. Si S2 choisit C1 alors S1 aura
pour meilleur intérêt à choisir C2
2. Si S2 choisit C2 alors S1 aura
pour meilleur intérêt à choisir C1
2. Si S2 choisit NP alors S1 aura
pour meilleur intérêt à choisir C2
Nous voyons ici que quel que soit le choix
de S2, la société S1 ne choisira
jamais NP.
Donc la stratégie NP pour S1 est totalement
dominée
et peut être éliminée.
De même, regardons s'il y a une stratégie
qui ne sera jamais choisie par S2 quelle que soit la stratégie
de S1.
1. Si S1 choisit C1 alors S2 aura
pour meilleur intérêt à choisir C1 (car
ainsi S2 ne perdra rien (0))
2. Si S1 choisit C2 alors S2 aura
pour meilleur intérêt à choisir C2 (car
ainsi S2 gagnera 3)
3. Si S1 choisit NP alors S2 aura
pour meilleur intérêt à choisir C2 (car
ainsi S2 gagnera 5)
Nous voyons ici que quel que soit le choix
de S1, la société S2 ne choisira
jamais NP.
Donc la stratégie NP pour S2 est totalement
dominée
et peut être éliminée.
Le tableau se
simplifie alors de la manière
suivante:
S1 / S2 |
C1 |
C2 |
C1 |
0 |
2 |
C2 |
6 |
-3 |
Tableau: 65.12
- Simplification du jeu pour analyse graphique
Par ailleurs,
ce jeu ne contient pas d'équilibre
de Nash (donc aucune stratégie pure n'est avantageuse).
Il est donc sans équilibres. Effectivement, si S1
choisit C1 alors S2 a
intérêt à choisir aussi C1. Mais S1 a alors
meilleur intérêt à jouer C2. Mais S2 a maintenant
intérêt
à choisir plutôt C2. Ce qui redonne à S1
l'envie de choisir C1...
Étudions maintenant
l'aspect ensembliste, en d'autres termes l'aspect du jeu qui
va donner la stratégie
mixte à adopter par S1 avec la répartition
du choix ad hoc pour que celle-ci ait un gain maximal.
Pour cela, appelons p et q les
fréquences avec lesquelles les sociétés S1 et S2 choisissent
la chaîne de magasin C1.
S1 / S2 |
C1 |
C2 |
|
C1 |
0 |
2 |
p |
C2 |
6 |
-3 |
1-p |
|
q |
1-q |
|
Tableau: 65.13
- Mise sous forme paramétrique du jeu pour analyse graphique
Ces probabilités doivent être interprétées
de la manière suivante:
1. Si p et q sont égaux à l'unité alors
pour toutes les régions, ce sera la chaîne C1 qui
s'occupera de la commercialisation
2. Si p et q sont
par exemple 9/11 et respectivement 5/11 cela signifiera que
la société S1 donnera
le droit de vente à la chaîne de magasins C1 dans 9 régions
sur 11 (les deux restantes étant pour C2) et respectivement
la société S2 donnera le droit de vente à la
chaîne de
magasins C1 dans 5 régions sur 11 (les 6 restantes étant
pour C2).
Donc commençons notre étude. Nous allons nous
mettre dans une optique d'analyse dans laquelle la société S1
cherche sa stratégie mixte de manière à maximiser
son gain (ou utilité)
que nous noterons v et à connaître la stratégie
mixte de la société S2 afin qu'elle minimise
sa perte v (puisque
c'est un jeu à somme nulle et tout ce que gagne l'un l'autre
le perd).
Le système d'équation sera alors naturellement
pour la société S1:
(65.24)
et pour la société S2:
(65.25)
Or, nous retrouvons
ici une situation remarquable. Effectivement, il ne s'agit
que de deux formes standards de programmation
linéaire (cf. chapitre de Méthodes
Numériques). Nous avons vu
lors de notre étude de celle-ci que lorsqu'il n'y a qu'une
seule inconnue par forme (ou système) alors il est possible
de passer par une résolution graphique sans faire usage
de l'algorithme du simplexe.
Après simplification cela donne:
(65.26)
et la représentation
graphique de v en
fonction de p correspondante:

Figure: 65.14 - Correspondance des inéquations du problème d'optimisation
En résolvant avec l'algorithme du simplexe,
nous avons comme valeurs optimales pour les deux systèmes
respectifs (il est aussi possible de lire la valeur approximative
sur les
graphiques mais bon...):
(65.27)
La société S1 peut
par conséquent se
garantir un gain moyen v (nous devrions parler "d'espérance"
pour être rigoureux) de 12/11. Effectivement:
(65.28)
et la probabilité p donnant
au fait la distribution entre les chaînes de magasins C1
qui aura 9/11 du marché de l'ensemble des régions
et C2 le
reste soit 2/11 (la somme devant faire bien évidemment
1).
La société S2 peut
par conséquent se
garantir aussi un gain moyen v de 12/11. Effectivement:
(65.29)
et la probabilité q donnant
la distribution entre les chaînes de magasins C1
qui aura 5/11 du marché de
l'ensemble des régions et C2 le reste soit 6/11.
JEUX
COOPÉRATIFS ET NON-COOPÉRATIFS
Une
première approche (sans faire usage des maths dans un premier temps)
de cette attitude d'esprit (forme de jeu) est accessible à de jeunes
enfants (sans qu'ils le sachent!).
Exemple:
Imaginons
deux enfants, l'un et l'autre gourmands, en présence d'un gâteau
homogène, parfaitement divisible (et très bon...). Si la
maman fait deux parts, il y aura immanquablement des disputes, chacun
trouvant plus grosse la part de l'autre. Le seul moyen (hors dictat)
d'éviter toute dispute est pour la mère d'imposer la règle suivante: l'un des enfants effectue le partage, et l'autre choisit en premier
sa part. Celui qui coupe ne peut pas raisonner en tenant compte
de ses seules préférences, qui le pousseraient à se couper une grosse
part. Il sait en effet que l'autre pourra choisir sa part. Si donc
il coupe une part plus grosse que l'autre, il risque de la retrouver
dans l'assiette du voisin. Il va donc s'efforcer de couper des parts
aussi égales que possibles, à ses yeux. Ainsi, quel que soit le
choix de l'autre, il ne s'estimera pas maltraité. C'est cette anticipation
du choix d'un autre décideur qui constitue l'originalité de la théorie
de la décision et de la coopération !
Définitions:
D1. La
partie de la théorie des jeux qui s'occupe de la détermination
des
éléments socialement préférables (au niveau du groupe plutôt que
de l'individu seul en d'autres termes) de l'ensemble des issues I
est souvent dite "coopérative" ou "coalitionnelle".
Elle nécessite que les différentes parties puissent
communiquer entre elles et... qu'elles soient rationnelles.
D2. La
partie dite, au contraire, "non-coopérative" ou "stratégique"
ne s'intéresse pas à la mise en oeuvre des solutions
préconisées
par la théorie des jeux coopératifs qui ont force
de loi. Elle suppose que les différentes parties ne communiquent
pas entre elles ou ne sont pas rationnelles.
Cette
distinction entre jeux coopératifs et jeux non-coopératifs
prête souvent à confusion. Essayons de la dissiper pour partie.
Tout d'abord, cette distinction ne signifie nullement que les comportements
que nous concevons intuitivement comme "coopératifs",
au sens où ils induisent une part de sacrifice de nos intérêts propres
au profit d'un bien jugé supérieur, ne pourront apparaître que dans
le cadre des jeux coopératifs, au contraire! Les jeux stratégiques
se soucient beaucoup de l'apparition endogène de tels comportements.
Inversement, les jeux coopératifs sont très attentifs au respect
des intérêts des individus. C'est là d'ailleurs l'une des difficultés
principales qu'il leur faut affronter: si sacrifice individuel
pour le bien commun il doit y avoir, qui doit se sacrifier ? Et
pourquoi tel individu plutôt qu'un autre ?
Une fois
défini l'ensemble I unanimement considéré comme
représentant
toutes les issues possibles du problème que nous cherchons à résoudre,
il nous faut déterminer des
critères qui permettent de sélectionner le "meilleur"
état possible, compte tenu des appréciations diverses
et contradictoires dont I fait l'objet par les différents citoyens en présence.
Nous savons
que cette appréciation se mesure au moyen de la fonction
d'utilité
définie sur I et prenant ses valeurs dans .
Ainsi, si le système que nous considérons comporte
individus et si est
l'issue sélectionnée, est
le gain accordé par le joueur i à
x.
Remarque: Si un individu i avait le pouvoir d'imposer
sa volonté
aux autres (quitte, au besoin, à la faire passer pour la "volonté
générale"), il choisirait tout simplement l'issue x
qui maximise  (c'est-à-dire
son gain).
OPTIMUM
DE PARETO
Un premier
critère qui vient à l'esprit, et qui est dû au sociologue
italien Vilfredo Pareto, est celui de l'optimalité qui porte
son nom (à
ne pas confondre avec la "loi de Pareto" concept complètement
empirique en économie selon lequel la plupart des répartitions
se font dans un rapport 20/80% (cf. chapitre
de Techniques De
Gestion).
Considérons
deux issues x et y, appartenant toutes deux à I,
et supposons que, pour chaque individu i,
nous ayons la situation suivante:
(65.30)
En d'autres
termes, aucun individu ne serait a priori lésé si
nous substituions pour chacun l'état y à l'état x.
Supposons de surcroît, qu'il existe au moins une personne j qui
préfère strictement y à x tel
que:
(65.31)
Dans ces
conditions, nous ne voyons plus vraiment ce qui devrait retenir
le législateur de choisir y plutôt que x.
Définition: Une issue i réalisable
qui n'admet aucune "amélioration" est appelée
un "optimum de Pareto" (O.P.)
et est définie
rigoureusement par:
(65.32)
La "pareto-optimalité"
est à comprendre comme une condition sine qua non, un "minimum
minimorum", sans lequel le concept de solution d'un jeu coopératif
que nous cherchons à élaborer devrait être automatiquement rejeté.
Remarque: Ce résultat forme rejoint donc ce que
nous avions déjà écrit en début de
chapitre. C'est-à-dire
que si dans un jeu, un couple d'issues est tel qu'il est impossible
d'améliorer le score de l'un des deux joueurs sans diminuer
le score de l'autre, nous disons que ces issues sont "pareto-optimales"
ou "pareto-efficientes".
ÉQUILIBRE
DE NASH
Définition: "L'équilibre
de Nash" (ou "équilibre" tout court)
décrit donc une issue d'un
jeu dans lequel aucun joueur n'a intérêt à modifier
sa stratégie
unilatéralement, compte tenu des stratégies des
autres joueurs.
Remarque: Nous avons déjà vu de nombreux exemples
avec des équilibres précédemment.
Soit un
jeu à n joueurs, et:
(65.33) une combinaison de choix stratégiques de ces n joueurs
où est
le meilleur choix stratégique du joueur i
et avec ,
l'ensemble des stratégies praticables par le joueur i.
Soit
le gain du joueur i lorsque est
sélectionné.
Une combinaison
de choix stratégiques est
un équilibre de Nash si et seulement si:
(65.34)
pour tout dans
et
tout i.
Interprétation: Aucun joueur
ne peut tirer un bénéfice d'une déviation
de ,
quelle que soit la stratégie qu'il choisisse dans son ensemble .
Ainsi, aucun
joueur n'a intérêt à dévier, et participe
à
un
équilibre.
Remarque: Il peut arriver qu'un optimum de Pareto se confonde
avec l'équilibre de Nash mais ce n'est pas toujours le
cas (donc un équilibre de Nash n'est pas toujours un optimum
de Pareto).
Définition: Quand
la stratégie d'un joueur
est la meilleure réponse face à toutes les stratégies
possibles de ses rivaux,
nous parlons alors de "stratégie
dominante" (cette
stratégie
domine toutes les autres stratégies du joueur). L'équilibre de
ce jeu est alors appelé "équilibre
en stratégie dominante".
In extenso, une stratégie est "dominée" si elle procure
au joueur des gains toujours inférieurs à ceux associés à au moins
une autre de ses stratégies.
Remarque: Nous pouvons nous interroger si dans un jeu
non-coopératif
l'équilibre de Nash (s'il existe) n'est pas tel qu'il amène
de toute façon à une coopération implicite?
Au fait, ce n'est pas le cas (et c'est un résultat
très
important) comme nous le verrons dans l'étude du fameux
dilemme du prisonnier un jeu dont l'équilibre de Nash est
assuré par des choix individualistes et rationnels tels
qu'ils soient non coopératifs !!! Ce sera donc un exemple
extrêmement
important dans le cadre de l'économie de marché.
Méthode: Une manière de déterminer les équilibres d'un jeu consiste
à éliminer en premier toutes les stratégies dominées puis à rechercher
les équilibres dans le jeu ainsi réduit.
Exemple:
En éliminant les stratégies dominées (mêmes faiblement dominées)
pour chacun des joueurs, nous tombons sur (6 , 4) qui est comme
nous le voyons un équilibre de Nash (car c'est celle où
aucun joueur n'a intérêt à changer de stratégie).
J1
/ J2 |
S1 |
S2 |
S3 |
S1 |
5
, 2 |
4
, 4 |
6
, 4 |
S2 |
3
, 1 |
2
, 0 |
5
, 2 |
Tableau: 65.14
- Matrice avec équilibre de Nash
Le jeu
suivant par contre, ne comporte pas
d'équilibre de Nash. Effectivement, quel que soit le couple
de stratégies envisagé, l'un des joueurs
obtient toujours plus en modifiant son choix.
J1
/ J2 |
S1 |
S2 |
S1 |
1
, 0 |
0
, 1 |
S2 |
0
, 1 |
1
, 0 |
Tableau: 65.15
- Matrice sans équilibre de Nash
Toutefois,
pour le moment il apparaît pour le moins prématuré
de prescrire aux joueurs le choix d'un équilibre; certes
s'il est choisi, la situation a une certaine stabilité,
mais il reste trois difficultés:
1. Nous ne
sommes pas assurés de l'existence d'un couple de tactiques
en équilibre (conjonction des tactiques prudentes)
2. Même
en cas d'existence, nous ne sommes pas assurés de l'unicité
d'un couple de tactiques en équilibre
3. Même
en cas d'existence et d'unicité, nous pouvons prescrire
un autre choix (!!!!)
UTILITÉ
ESPÉRÉE
Soit le jeu
non-coopératif à somme nulle suivant:
J1 / J2 |
S1 |
S2 |
S1 |
0 |
2 |
S2 |
3 |
1 |
Tableau: 65.16
- Demi-matrice d'un jeu non-coopératif à somme nulle
qui ne comporte
pas d'équilibre comme nous l'avons vu plus haut. Dans
ce genre de jeu, toute recommandation à un joueur de
choisir une tactique plutôt qu'une autre peut lui nuire,
dès lors que l'adversaire en est informé, ou peut
deviner cette recommandation.
Effectivement,
si
pense que
va choisir sa tactique 1, il a intérêt à
choisir sa tactique 2 (utilité 3 contre 0). Mais alors,
si
pense que
va choisir sa tactique 2, il a intérêt à
choisir sa tactique 2 (perte 1 au lieu de 3). Alors, si
pense que
va choisir sa tactique 2, il a intérêt à
choisir sa tactique 1 (utilité 2 contre 1). Mais alors,
si
pense que
va choisir sa tactique 1, il a intérêt à
choisir sa tactique 1 (perte 0 au lieu de 3). Et la boucle est
bouclée...
En définitive,
la chose qui importe avant tout dans un jeu non-coopératif
c'est que la tactique d'un joueur ne puisse pas être
devinée
par son adversaire. Comme tout raisonnement pourrait être
percé à jour, les adversaires étant parfaitement
rationnels et informés, la seule solution imaginable
est de s'en remettre à un processus précis,
appuyé
sur des probabilités affectées aux diverses tactiques
possibles. Ainsi, comme nous l'avons défini plus haut,
le jeu comporte un aspect à "stratégie
mixte".
Naturellement,
le résultat obtenu par le joueur ne peut pas être
garanti de façon certaine, puisque le processus de
choix de la décision fait intervenir des probabilités.
Comparer des résultats revient donc à comparer
des loteries. Nous imaginons la situation d'un amiral devant
répondre devant un tribunal militaire de la perte d'un
navire, et expliquant qu'il a pris sa décision en jouant
aux dés (en supposant une bataille sans équilibre
de Nash et non-coopérative): même si parfaitement
conforme aux prescriptions de la théorie des jeux,
cette explication aura peine à convaincre!
CRITÈRE
DE HURWITZ
Il nous
faut donc introduire une utilité probabiliste (appelée
aussi parfois le "critère
de Hurwitz").
Considérons
un jeu à deux stratégies propres
et notons l'utilité respective:
(65.35)
qui permet
d'obtenir
avec une probabilité P et
avec une probabilité 1-P. Cette relation s'écrit
avec des notations évidentes (cf.
chapitre de Probabilités):
(65.36)
avec E
que nous appellerons "l'utilité espérée"
(en similitude avec le concept d'espérance vu dans le
chapitre de Statistiques) ou "espérance
de gain anticipée".
Nous pouvons
déjà noter que, s'il existe une telle utilité
(espérée), il en existe une infinité à
un arbitraire près, obtenues à partir de U
par une transformation affine strictement croissante, c'est-à-dire
une relation de la forme:
avec
(65.37)
En effet,
la relation:
(65.38)
entraîne
pour :
(65.39)
qui, additionnée
terme à terme à la relation évidente (nécessaire):
(65.40)
conduit
bien à:
(65.41)
Cela prouve
entre autres ce que nous avions énoncé plus haut:
nous pouvons toujours choisir une fonction d'utilité
(et ce même dans une optique de stratégie pure
où
ou )
telle que les deltas des gains de joueurs dans les jeux à
somme nulle soient égaux et opposés.
Remarque: L'utilité espérée (ou "critère
de Hurwitz") se confond avec le critère du maximin
lorsque

et du maximax lorsque 
(voir plus loin).
Voyons de
suite un exemple en considérant le jeu à somme
nulle suivant:
J1 / J2 |
b1
|
b2
|
a1
|
5 |
2 |
a2
|
3 |
4 |
Tableau: 65.17
- Matrice d'un jeu à somme nulle
Nous voyons
dans ce jeu qu'il n'y a pas d'équilibre de Nash (et
donc pas de col). Effectivement, si
pense que
va décider ,
il a intérêt à choisir
(perte de 2 au lieu de 5). Mais
comprenant cela, va changer pour
(gain de 4 au lieu de 2). Mais
devinant cela va changer pour
(perte de 3 au lieu de 4), et
qui a tout compris va revenir à
(gain de 5 au lieu de 3).
Considérons
maintenant que le joueur
va choisir un nombre compris entre 0 et 1, soit x, et
prendra les décisions
avec la probabilité x et
avec la probabilité 1- x.
De même, le joueur
va choisir un nombre compris entre 0 et 1, soit y, et
prendra les décisions
avec la probabilité y et
avec la probabilité 1- y.
Les résultats
de ces décisions conjointes sont alors:
- 5, résultant
de la conjonction de ,
obtenu avec la probabilité xy (les décisions
des deux joueurs étant indépendantes !)
- 2, obtenu
avec la probabilité  - 3, obtenu
avec la probabilité  - 4, obtenu
avec la probabilité  L'espérance
de
est donc:
(65.42)
Remarque: Nous voyons bien que si x=0 (et y=1)
alors nous tombons sur le critère du Minimax (le gain maximum
des stratégies les plus pessimistes) soit 
égal à 3. De même si x=1 (et y=1)
alors nous tombons sur le critère du Maximax (le gain
maximum des stratégies les plus optimistes).
S'il y a
équilibre entre les stratégies probabilistes,
n'aura aucune raison de modifier la valeur de x dans
l'espoir d'augmenter .
Dès lors, la dérivée par rapport à
x doit être nulle telle que (maxima):
(65.43)
Dans ces
conditions:
(65.44)
Pour examiner
ce qui s'offre à ,
dont l'espérance, rappelons-le, sera dans un jeu à
somme nulle nécessairement opposée à celle
de ,
nous écrivons:
(65.45)
En appliquant
le même raisonnement (mais implicitement en minima):
(65.46)
Dans ce
cas:
(65.47)
Ainsi, nous
avons déterminé les probabilités des stratégies
qui maximisent l'espérance des gains de ce jeu non-coopératif
! En les adoptants
est certain d'une espérance au moins égale à
7/2
(puisque
n'a rien à gagner à modifier sa stratégie)
et
est certain d'une espérance au moins égale à
-7/2.
Le nombre 7/2
(valeur absolue) est la "valeur du jeu".
Définition: Si la valeur du jeu d'un
jeu non-coopératif à
stratégie mixte est égale pour les deux joueurs,
nous disons alors qu'il s'agit d'un "équilibre
en stratégie mixte" (aucun des joueurs n'a
intérêt
à dévier unilatéralement).
Ce résultat
est certainement le plus remarquable jusque-là sur ce
chapitre, car les jeux non-coopératifs sont les plus
nombreux sur le marché.
CRITÈRE
DE LAPLACE Le critère
de Laplace est un critère qui affecte la même
probabilité, en l'absence d'information, pour chaque
décision (équiprobabilité). Il s'agira
de calculer une espérance de gain pour chaque décision
compte tenu de la probabilité affectée.
Autrement
dit, le critère de Laplace consiste à déterminer
pour chaque projet l'espérance mathématique en
affectant la même probabilité à chaque état
de la nature et retenant celui dont l'espérance est la
plus élevée.
Voyons de
suite un exemple en considérant à nouveau le
jeu de somme nulle suivant:
J1 / J2 |
b1
|
b2
|
a1
|
5 |
2 |
a2
|
3 |
4 |
Tableau: 65.18
- Matrice d'un jeu à somme nulle
En appliquant
l'équiprobabilité, nous avons le tableau suivant:
J1 / J2 |
E(b1)
|
E(b2)
|
E(a1) |
5/2+2/2=3.5,5/2+3/2=4 |
5/2+2/2=3.5,2/2+4/2=3 |
E(a2)
|
3/2+4/2=3.5,5/2+3/2=4 |
3/2+4/2=3.5,2/2+4/2=3 |
Tableau: 65.19
- Application des probabilités dans la matrice
Le jeu
devient alors:
J1 / J2 |
E(b1)
|
E(b2)
|
E(a1) |
3.5
, 4 |
3.5
, 3 |
E(a2)
|
3.5
, 4 |
3.5
, 3 |
Tableau: 65.20
- Calcul des espérances
Dans cet
exemple, où l'espérance est toujours égale
pour le joueur
quelle que soit sa stratégie, le joueur 2 choisira la
stratégie où l'espérance de sa perte
est la plus faible soit .
Nous avons donc ici un équilibre de Nash (sans optimum
de Pareto).
Remarque: Les techniques présentées
ci-dessus ne sont pas exhaustives. Les entreprises utilisent
par exemple
beaucoup
les études statistiques de R&R (répétabilité & reproductibilité)
par attributs pour analyser statistiquement avec intervalles
de confiance (utilisant le test binomial exact démontré dans
le chapitre de Statistiques) et sur la base d'un indicateur
appelé "Kappa
de Cohen" (voir mon livre sur Minitab) les décisions
de gestionnaires ou d'employés par rapport à celles
d'un expert de référence.
JEUX ÉVOLUTIONNAIRES
Les stratégies
de l'évolution biologique, comme nous en avons fait
mention au début de ce chapitre, peuvent être
modélisées à l'aide de la théorie
des jeux. Dans ce cadre, le biologiste est amené à définir
des relations remarquables définissant une stratégie
d'évolution
donnée (dominance, stagnation, suicide).
Définition: Une "stratégie évolutionnaire
stable (SES)" (ou "evolutionary
stable strategy" ESS) est une stratégie adoptée
par la majorité et empêchant qu'une population
soit envahie par un mutant qui recourrait à une stratégie
différente.
Cette stratégie
s'écrit sous la forme d'une condition de stabilité
telle que soient deux stratégies
de deux joueurs nous ayons:
(65.48)
ou (si cette dernière
n'apparaît pas) par la simultanéité des
deux stratégies de non-sélection et suicide:
et
(65.49)
- La première
relation signifie qu'en aucun cas un individu n'a à changer
de stratégie pour se défendre contre une évolution
mutante ayant la même stratégie que lui, car
toute autre lui serait défavorable.
- La deuxième
relation signifie que quelle que soit la stratégie adoptée
contre une stratégie mutante, il y aura stagnation.
- La troisième
relation signifie que contre ,
toute stratégie différente de
est préférable pour contrer
même. Autrement dit, appliquer une stratégie
différente de
est suicidaire (le cas contraire ne l'est donc pas!). Exemple:
Voyons un jeu connu Faucons (Hawk) contre Colombes (Dove).
Ce jeu
vise à modéliser les rapports entre individus en compétition
pour une ressource rare, c'est-à-dire dont le degré d'adaptation
va être modifié à la fois par l'obtention
de cette ressource et par les violences qu'ils subiront ou
infligeront pour
l'obtenir.
Dans leurs
interactions compétitives, les organismes recourent à deux
types de stratégies (comportements): la stratégie
du faucon et celle de la colombe. Le faucon intensifie le
conflit jusqu'à
ce qu'il soit blessé ou jusqu'à ce que l'autre
batte en retraite. La colombe se retire après une première
démonstration de
force si l'adversaire choisit d'intensifier le conflit. Lorsque
deux faucons se rencontrent, l'un est blessé et l'autre
emporte la ressource. Si un faucon et une colombe s'affrontent,
le faucon s'empare de la ressource
sans danger d'être blessé et la colombe n'obtient
ni avantage ni dommage. Enfin, deux colombes se partagent
à part égale la ressource.
Nous posons
également les hypothèses suivantes:
H1. Les
affrontements se déroulent un à un
H2. La
population est infinie
H3. Les
rencontres sont aléatoires
H4. Les
combats sont symétriques (au sens ou ni l'âge, ni
la taille, ni l'expérience n'influent sur l'issue
du combat)
H5. Il
est impossible de savoir avant le début d'un conflit
quelle stratégie un animal adoptera.
Sur la
base de ces règles d'interaction (assez loin de la réalité...),
il est possible de construire le tableau du jeu qui nous
permettra
de calculer
les avantages
ou les désavantages des diverses stratégies selon les circonstances. Ainsi
le tableau de jeu est le suivant:
J1 / J2 |
H |
D |
H |
(V-C)/2
, (V-C)/2 |
V , 0 |
D |
0,
V |
V/2
, V/2 |
Tableau: 65.21
- Matrice d'un jeu évolutionnaire
Comme il s'agit d'un jeu à somme nulle, nous
pouvons le simplifier:
J1 / J2 |
H |
D |
H |
(V-C)/2 |
V |
D |
0 |
V/2 |
Tableau: 65.22
- Demi-matrice simplifiée du jeu évolutionnaire
Nous notons ici V l'avantage
qu'un organisme retire de l'obtention de la ressource. V désigne non la ressource
elle-même, mais l'accroissement du degré d'adaptation qu'elle
procure à l'organisme qui l'obtient. C correspond
au coût payé, mise en danger ou blessure, pour acquérir
la ressource.
D'abord
explicitons la manière dont il faut lire
ce tableau:
1. Pour
la stratégie (D, D)
- tout le monde est gentil avec tout le monde - le gain total
des deux individus est:
(65.50)
La population
restera donc constante (c'est la stagnation).
Bref, de par leurs comportements les colombes se partagent à l'amiable
la valeur de la ressource.
2. Pour
les stratégies
les "colombes" D sont toujours perdantes (elles ne progressent
pas dans leur évolution). Leur gain est nul alors que
les "faucons" auront éliminé le nombre V
de colombes (d'où le gain).
3. Pour
la stratégie
les "faucons" supportent une perte du type
où C est une constante et telle que la somme des
gains des faucons est normalement inférieure ou égale à
V. Autrement dit:
(65.51)
Bref, lorsqu'un
faucon en affronte un autre, il obtient en moyenne une fois
sur deux la valeur de la ressource diminuée du prix
encouru pour l'obtenir.
Remarque: Ce jeu peut être vu comme un jeu de guerre
entre deux joueurs... l'interprétation des résultats
est dès lors plus que pertinente.
Nous devons
maintenant considérer deux stratégies:
1. L'étude
du jeu de manière globale en stratégie pure (sans
probabilités donc)
2. L'étude
du jeu de manière globale en stratégie mixte
(faisant intervenir les probabilités)
Commençons
par la première en considérant 3 cas de figure:
(65.52)
- Si (avantage
plus élevé que le coût de la stratégie), en choisissant
(qui est dès lors l'équilibre de Nash strict
du jeu) nous pouvons observer que le jeu sera du type évolutionnaire
stable (SES). Effectivement, nous retrouvons la relation:
(65.53)
correspondant
bien à:
(65.54)
et nous pouvons aussi observer qu'il existe aussi une stratégie
faiblement dominante (pas de sélection naturelle) dans:
(65.55)
correspondant
bien à:
(65.56)
Mais
celle-ci ne sera pas adoptée puisque moins forte
que l'équilibre de Nash.
- Si (avantage
égal au coût), le jeu est aussi du type SES. Effectivement,
(H, H)
devient une stratégie faiblement dominante:
(65.57)
correspondant
bien à
et il n'y a dès lors pas d'évolution et nous pouvons
aussi observer qu'il y a aussi:
(65.58)
correspondant
à:
(65.59)
Puisque
nous avons simultanément:
et
(65.60)
lorsque le
jeu est une SES.
- Si (avantage
inférieur au coût), ni H, ni D ne
sont des stratégies
dominantes et nous n'avons pas de SES:
(65.61)
et:
(65.62)
ces deux
dernières relations correspondant toutes 2 à:
(65.63)
C'est
plutôt embêtant... c'est une sorte de suicide
collectif...
Remarque: Ces deux dernières relations nous amènent
à observer que les faucons ne voudront pas forcément
révéler aux autres faucons leur stratégie
de prédateurs de colombes, puisque: toute stratégie
vaut mieux être contrée par une autre stratégie
plutôt que par elle-même. Ils préfèrent
peut-être discuter entre eux ce qui amène au fait
que le jeu est dès lors coopératif.
Cherchons
maintenant à l'aide de l'étude en stratégie
mixte ce que nous pourrions faire pour amener la dernière
configuration précédente à un ESS (donc
relativement
à la dernière configuration
afin de voir de plus près ce que nous pouvons faire pour
éviter cela):
Nous considérons
une population d'individus qui jouent donc une stratégie
mixte que nous noterons pour chacun:
(65.64)
avec et:
(65.65)
Si (stratégie
pure), nous aurons dès
lors:
(65.66)
Reprenons
maintenant l'étude des trois cas de figure:
(65.67)
1. Si avec
et nous
avons toujours:
(65.68)
en d'autres
termes, la stratégie sera toujours du type évolutionnaire
stable (SES) si
est une stratégie pure et ce même si
peut varier et s'approcher de .
2. Si avec
et nous
avons toujours:
et
(65.69)
en d'autres
termes, la stratégie sera toujours du type non-sélective
si
est une stratégie pure et ce même si
peut varier et s'approcher de .
3. Si et
,
nous laissons tomber
pour ne nous intéresser qu'à la généralisation
.
Nous avons alors:
(65.70)
Effectivement:
(65.71)
De même:
(65.72)
Effectivement:
(65.73)
Et nous
aimerions arriver à une SES en stratégie mixte.
Cela est-il possible ?
Dans le
cadre d'une stratégie mixte, nous avons démontré
lors de l'étude d'un jeu à somme nulle que l'équilibre
mixte était donné par:
(65.74)
Il est donc
assez évident que pour un jeu qui n'est pas à
somme nulle, nous ayons l'équilibre mixte qui soit donné
par:
(65.75)
Dès
lors, cherchons la relation entre P, C, V telle
que cet équilibre soit atteint:
(65.76)
En connaissant
les utilités:
(65.77)
d'où
nous tirons que l'équilibre en stratégie mixte
est donné par:
(65.78)
et donc
que l'équilibre est donné par la stratégie
mixte:
(65.79)
À quoi
cette stratégie va-t-elle mener ? Eh bien simplement
dans le cas suicidaire cette stratégie mixte est
la meilleure réponse contre elle-même (c'est
ce qu'il est possible de faire de mieux dans ce qu'il y
de pire) car elle conduit
aux deux conditions qui satisfont une SES.
ÉQUILIBRE
DE COURNOT
Imaginons
deux propriétaires M et N, et deux sources
dont les qualités sont identiques et qui se trouvent placées
de manière à
alimenter concurremment le même marché de sorte que la
quantité
totale livrée aux commerces se compose de la somme des quantités m,
n
livrées par chacun des propriétaires à un
prix qui est nécessairement
le même pour chacun d'eux puisqu'il n'y a aucun motif de préférer
une source à l'autre. Ce prix se trouve déterminé quand
la somme des quantités m, n l'est elle-même, à cause
de la liaison qui existe entre le prix et la demande. Admettons
que le propriétaire N ait fixé arbitrairement,
sans égard au prix, la quantité n
qu'il entend livrer: alors le propriétaire M fixera
le prix de vente, c'est-à-dire la production totale (composée
de la somme des quantités m et n), c'est-à-dire
encore sa production
m
de manière à se procurer le plus grand revenu possible.
Dans
la pratique, une suite de tâtonnements et d'oscillations
amènera
les deux propriétaires à cette position d'équilibre,
et la théorie
montre que cet équilibre est stable: c'est-à-dire
que si l'un ou l'autre des propriétaires, trompé sur
ses intérêts véritables,
vient à s'en écarter momentanément, il y sera
ramené par une suite
d'oscillations du genre de celles qui avaient primitivement abouti
à constituer l'équilibre.
Nous
allons mettre en place une situation de jeu à deux personnes.
Nous poserons que le prix P
est une fonction affine de la quantité totale Q produite:
(65.80)
où
est
une constante de normalisation des unités.
Nous
supposerons égaux et fixes les coûts marginaux de production, représentés
par le nombre ,
et nuls les coûts fixes, en sorte que le coût de production s'écrive
respectivement et
pour
les deux sources.
Le
modèle de Cournot pose que les deux entreprises fixent les quantités
qu'elles produisent simultanément, ou, à tout le moins dans l'ignorance
mutuelle de la tactique de l'autre.
Pour
reconnaître un jeu sous forme normale, il ne nous reste plus
qu'à
identifier le gain retiré par chacun des adversaires pour
tout couple
de tactique afin de pouvoir, si on le désire, construire
la matrice des gains.
Le
profit de M est:
(65.81)
et
celui de N:
(65.82)
La
recherche d'un équilibre de Nash conduit chaque entreprise à choisir
sa production pour maximiser son profit et minimiser ses coûts
de stockage (voir modèle de Wilson dans le chapitre de
Techniques de Gestion), la production de son partenaire
étant supposée connue.
Dans
ce but, on annule la dérivée des deux fonctions précédentes:
(65.83)
Système
dont la résolution conduit très facilement à la détermination de:
(65.84)
(resterait
à vérifier que ce sont bien des maximums, en contrôlant
les dérivées
de deuxième ordre et non des minimums). La situation d'équilibre
du duopole intervient donc lorsque chacune des deux firmes produit
un tiers du marché potentiel (son profit est alors maximum).
Le
prix de vente dans le cadre d'un équilibre de Nash serait alors:
(65.85)
Soit, une valeur inférieure au coût marginal
ce qui ne présage évidemment
rien de bon! Il vaudrait donc mieux que le prix ne soit pas une
fonction affine de la quantité...
De ce dernier résultat nous déduisons que le profit
de chaque entreprise sera donné par:
(65.86)
et est in extenso négatif pour les deux (en cause le modèle
de relation supposée affine).
Ces
calculs sont à rapprocher du raisonnement purement économique, pour
lequel chaque entreprise aimerait être seule, en monopole sur le
marché. Le profit de l'entreprise M en situation de monopole
serait:
(65.87)
ce qui met en évidence le maximum, atteint
pour (on cherche où la dérivée s'annule):
(65.88)
Ainsi,
on voit très bien que la quantité produite en cas
de monopole est plus grande qu'en cas de duopole (logique!) et
que le profit ainsi que les
prix sont plus élevés.
Cependant avec notre modèle affine, même si l'entreprise M est
seule, son profit sera négatif...
L'idée
serait maintenant, si l'on revient à nos deux entreprises,
qu'un accord soit établi (cas appelé "entente
oligopole" contre
la concurrence... ce qui est interdit par la loi!), qui leur partage
ce profit majoré. La parfaite symétrie des situations
conduirait au partage par moitiés. Mais la difficulté vient
du fait que la décision de produire:
(65.89)
n'est
pas la meilleure réponse car elle incite à trahir
l'accord avec l'autre. Ainsi, le meilleur équilibre est
celui de Nash qui impose:
(65.90)
Lors de la mise au point d'une entente ou
d'un cartel, on peut distinguer plusieurs niveaux qui dépendent
du degré de précision des règles fixées
par l'ensemble des entreprises.
Le premier cas est celui qu'on peut appeler
"l'entente parfaite"; c'est l'entente qui permet de maximiser
le profit total des entreprises concernées. Une condition
mathématique
élémentaire est que toutes les entreprises doivent
fonctionner avec le même coût marginal. En effet, la maximisation
du profit total d'un ensemble d'entreprises s'écrit de
la manière suivante:
(65.91)
où rappelons-le :
(65.92)
Ce profit est maximum quand toutes les dérivées
partielles d'ordre 1 sont nulles et maximales (condition dites du
"premier ordre"). Soit:
(65.93)
La partie de gauche de la deuxième relation exprime la
variation de recette totale provoquée par une petite variation
de la quantité produite par le producteur i, et
la partie droite exprime la variation de coût
engendrée par la même variation de (coût
marginal du producteur i). La recette marginale provoquée
par une variation donnée de production q est la
même, quel que soit le producteur qui a modifié
sa production. En effet, l'influence d'une production additionnelle
sur l'offre totale et sur le prix est identique, que cette production
additionnelle vienne d'un producteur ou d'un autre.
Mais
comme on l'a vu dans le duopole de Carnot, ce type d'égalité admet
un profit total maximum à condition que toutes les entreprises
de l'entente aient leur coût marginal au même niveau, correspondant à
la recette marginale du marché. Cette condition d'égalité n'est
certainement pas une condition facile à remplir dans la
réalité des
ententes...
CHAÎNES DE MARKOV
Comme nous l'avons mentionné dans le chapitre de Probabilités,
les chaînes de Markov sont aussi utilisées dans le
domaine des techniques de décision. Nous disons alors que
nous faisons une "analyse de Markov" (dénomination que l'on retrouve
dans la norme ISO 31010). Le cas d'utilisation le plus fréquent
des chaînes de Markov dans l'industrie est le milieu de la
pharma-économie
(analyse des coûts de traitements des malades) qui passe
avant, d'après notre expérience, le domaine de la
finance et de l'ingénierie.
Par exemple, la chaîne de Markov simple suivante relative à un
symptôme particulier, a une étape dite "état
absorbant" connue par tous dont il n'est pas possible
de réchapper à ce jour...:

Figure: 65.15 - Chaîne de Markov avec état absorbant
Dont voici la chaîne de Markov décomposée
sur 20 cycles comme le présente traditionnellement le domaine
médical (cela suppose que les probabilités ne changent
pas au cours du temps...):

Figure: 65.16 - Chaîne de Markov avec cycles
Évidemment il est possible d'effectuer le
même
calcul directement sous forme matricielle... à nouveau la
matrice de transition (matrice stochastique) est simple à identifier.
Il s'agit de (cf. chapitre de Probabilités):
(65.94)
Le vecteur de probabilités initiales p(0)
vaut bien évidemment dans les cas les plus courants de maladie...:
(65.95)
À chaque fois que nous multiplions la transposée
de la
matrice de transition par le vecteur de probabilités initiales,
nous obtenons donc la probabilité d'être dans un état
donné, à un cycle donné!:
(65.96)
Avec la version anglaise de Microsoft Excel
11.8346, la modélisation
est assez simple
à reproduire:

Figure: 65.17 - Calculs des vecteurs
Soit avec les formules:

Figure: 65.18 - Calculs explicites des vecteurs
Si nous continuons ainsi jusqu'au 20ème cycle:

Figure: 65.19 - Suite (...)
Il est très courant dans les entreprises de synthétiser
l'évolution sous forme graphique (plus parlant pour la direction...):

Figure: 65.20 - Évolution de la cohorte
Nous voyons donc que l'état "mort" est
bien un état
absorbant car toute la probabilité y converge (malheureusement...).
Nous voyons également
que l'espérance de vie totale est de 4.99 cycles. Si nous
assimilons un cycle à une année, alors l'espérance
de vie est 4.99 années. Nous voyons immédiatement
que la mesure stationnaire de la chaîne (cf.
chapitre de Probabilités)
est donc:
(65.97)

- Initiation à la théorie
des jeux, J.-L. Boursin, Éditions Montchrestien,
ISBN10: 227511069 (188 pages) - Imprimé en 1998
|