Dilemme du prisonnier

Le dilemme du prisonnier est une célèbre illustration en théorie des jeux d'un jeu à somme non nulle. Dans ce jeu, comme dans bien d'autres, il est fait l'hypothèse que chaque joueur (ici « prisonnier ») essaye de maximiser ses bénéfices sans prendre en compte l'intérêt de l'autre joueur.

Sommaire

Principe

La forme habituelle de ce dilemme est celle de deux prisonniers retenus dans des cellules séparées et qui ne peuvent communiquer.

Ce problème modélise bien les question de politique tarifaire : le concurrent qui baisse ses prix gagne des parts de marché et peut ainsi accroître éventuellement son bénéfice... mais si son concurrent principal en fait autant, les deux peuvent y perdre.

L'équilibre de Nash pour ce type de jeu ne conduit pas à un optimum de Pareto (solutions optimales simultanées pour les deux joueurs). À l'équilibre, chacun des prisonniers choisit de faire défaut même s'ils gagneraient à coopérer. Malheureusement pour les prisonniers, chacun est incité à tricher après avoir fait la promesse de coopérer. C'est le cœur du dilemme.

Dans un jeu du dilemme du prisonnier répété, chaque joueur à l'opportunité de « punir » l'autre joueur pour sa précédente non-coopération. La coopération peut donc survenir dans cette configuration. L'incitation à tricher est inférieure à la menace de punition, ce qui introduit la possibilité de coopérer.

Le dilemme du prisonnier est utilisé par les économistes, les mathématiciens, les psychologues, les Biologistes et les spécialistes de science politique.

Dilemme du prisonnier classique

Formulation

La première expérience du dilemme du prisonnier a été réalisée en 1950 par Melvin Dresher et Merill Flood, qui travaillaient alors pour la RAND Corporation. Par la suite, Albert W. Tucker la présenta sous la forme d'une histoire:

Deux suspects sont arrêtés par la police. Mais les agents n'ont pas assez de preuves pour les inculper, donc ils les interrogent séparément en leur proposant la même proposition. «Si tu dénonces ton complice et qu'il ne te dénonce pas, tu seras remis en liberté et l'autre écopera de 10 ans de prison. Si tu le dénonces et lui aussi, vous écoperez tous les deux de 5 ans de prison. Si personne ne se dénonce, vous aurez tous deux 6 mois de prison.»

On résume souvent les utilités de chacun dans ce tableau:

1 \ 2 Se tait Dénonce
Se tait (-1/2;-1/2) (-10;0)
Dénonce (0;-10) (-5;-5)

Chacun des prisonniers réfléchit de son coté en considérant les deux cas possibles de réaction de son complice. « S'il me dénonce et que je me tais, je ferai 10 ans de prison alors que si je le dénonce, je ne ferai que 5 ans. S'il se tait et que je le dénonce, je serai libre alors que si je me tais, je ferai 6 mois de prison». Quelle que soit la solution choisie par le complice, il vaut mieux choisir d'avouer : les deux vont probablement choisir d'avouer. Bien que les deux aient choisi la solution qui semblait la plus rationnelle, s'ils étaient tous deux restés silencieux, ils n'auraient écopé que de 6 mois. Ainsi, lorsque chacun poursuit son intérêt individuel, le résultat obtenu n'est pas optimal (selon Pareto). En coopérant, chaque prisonnier aurait pu faire six mois de prison à la place de cinq ans. Ceci remet en cause certaines affirmations de la théorie économique libérale (comme la main invisible d'Adam Smith).

Ce jeu est à somme non-nulle, c'est-à-dire que la somme des gains pour les participants n'est pas toujours la même : il soulève une question de coopération.

Exemples d'application

Un exemple saisissant d'application du dilemme du prisonnier se trouve en politique internationale. Soit deux pays A et B. Les pays A et B peuvent choisir de maintenir ou non une armée. Si tous deux ont une armée, la guerre est impossible, car trop coûteuse. Les dépenses militaires sont alors une perte nette pour les deux pays. Si un seul a une armée, il peut évidemment conquérir sans coup férir l'autre. Enfin, si aucun n'a d'armée, la paix règne et les pays n'ont pas de dépenses militaires. La situation de coopération (pas d'armée) est évidemment préférable à la situation où les deux pays entretiennent une armée, mais est instable : chacun des deux pays a une forte incitation à se doter unilatéralement d'une armée pour envahir l'autre.

Plus simplement, le dilemme du prisonnier modélise surtout le cas de deux entreprises qui n'ont pas le droit de s'entendre sur une politique commerciale commune (la loi antitrust étatsunienne l'interdit) et qui se demandent s'il leur faut procéder à une baisse de prix pour conquérir des parts de marché au dépens de leur concurrent, ou non. Il va de soi que si tous deux baissent leur prix, sauf élasticité exceptionnelle du marché (informatique, par exemple), ils seront tous deux perdants par rapport au statu quo.

Le dilemme répété

Dans son livre The Evolution of Cooperation (L'évolution de la coopération, 1984), Robert Axelrod étudie une extension classique de ce dilemme : le jeu se répète, et les participants gardent en mémoire les précédentes rencontres. Il donne une autre illustration à partir d'une situation équivalente : deux personnes échangent des sacs, censés contenir respectivement de l'argent et un bien. Chacun a un intérêt immédiat à passer un sac vide, mais il est plus avantageux pour les deux que la transaction ait lieu.

Quand on répète ce jeu durablement dans une population, les joueurs qui adoptent une stratégie intéressée y perdent au long terme, alors que les joueurs apparemment plus désintéressés voient leur « altruisme » finalement récompensé. Axelrod y a vu une explication de l'apparition d'un comportement altruiste dans un contexte d'évolution darwinienne par sélection naturelle.

La meilleure stratégie dans un contexte déterministe « œil pour œil » (« Tit for Tat ») a été conçue par Anatol Rapoport pour un concours informatisé. Son exceptionnelle simplicité a eu raison des autres propositions. Elle consiste à coopérer au premier coup, puis à reproduire à chaque fois le comportement de l'adversaire du coup précédent. Une variante, « œil pour œil avec pardon », s'est révélée un peu plus efficace : en cas de défection de l'adversaire, on coopère parfois (de 1 à 5 %) au coup suivant. Cela permet d'éviter de rester bloqué dans un cycle négatif. Le meilleur réglage dépend des autres participants. En particulier, « œil pour œil avec pardon » est plus efficace si la communication est brouillée, c'est-à-dire s'il arrive qu'un autre participant interprète à tort un coup.

Pour le dilemme du prisonnier, il n'existe pas de stratégie toujours optimale. Si, par exemple, toute la population fait systématiquement défaut sauf un individu qui respecte « œil pour œil », alors ce dernier a un désavantage au premier coup. Face à une unanimité de défaut, la meilleure stratégie est de toujours trahir aussi. S'il y a une part de traîtres systématiques et d'"œil pour œil", la stratégie optimale dépend de la proportion et de la durée du jeu. En faisant disparaître les individus qui n'obtiennent pas de bons totaux et en faisant se dupliquer ceux qui mènent, on peut étudier des dynamiques intéressantes. La répartition finale dépend de la population initiale.

Si le nombre N d'itérations est fini et connu, l'équilibre de Nash est de systématiquement faire défaut, comme pour N=1. Cela se montre simplement par récurrence :

Pour que la coopération reste intéressante, le futur doit donc rester incertain pour tous les participants -- une solution possible est de tirer un N aléatoire.

La situation est aussi étonnante si l'on joue indéfiniment au dilemme du prisonnier, le score étant la moyenne des scores obtenus (calculée de manière appropriée).

Le dilemme du prisonnier est la base de certaines théories de la coopération humaine et de la confiance. Si l'on assimile les situations de transactions qui réclament de la confiance à un dilemme du prisonnier, un comportement de coopération dans une population peut être modélisé comme un jeu entre plusieurs joueurs, répété - d'où la fascination de nombreux universitaires depuis longtemps : en 1975, Grofman et Pool estimaient déjà à plus de 2000 les articles scientifiques sur le sujet.

Ces travaux fournissent une base modélisable, quantitative, pour l'étude scientifique des lois morales.

Variantes

Il existe des variantes de ce jeu qui, en modifiant légèrement les gains aboutissent à des conclusions très différentes :

Le jeu de la Poule-mouillée

La poule-mouillée est un autre jeu à somme non-nulle, où la coopération est récompensée. La défection double est la pire des solutions -- donc un équilibre instable -- alors que dans le dilemme du prisonnier, c'était de coopérer alors que l'autre trahissait -- ce qui rendait l'équilibre de double défection stable. La double coopération est dans les deux jeux un équilibre instable.

Une matrice de gains ressemble à :

1 \ 2 Coopère Trahit
Coopère (+5;+5) (+1;+10)
Trahit (+10;+1) (-20;-20)


L'appellation « Poule-mouillée » est tirée du « jeu » automobile : deux voitures se lancent l'une vers l'autre, prêtes à se rentrer dedans. Chaque joueur peut dévier et éviter la catastrophe (coopération) ou garder le cap (défection). On peut aussi y voir la relation entre deux fermiers qui partagent un système d'irrigation. Chacun peut l'entretenir seul, mais ils en profitent tous les deux autant. Si l'un d'entre eux n'assure pas sa part d'entretien, l'autre a toujours intérêt à le faire à sa place, pour continuer à arroser. Par conséquent, si un des fermiers parvient à établir une réputation d'indélicat dominant -- c'est-à-dire si l'habitude est prise que ce soit toujours l'autre qui s'occupe de l'entretien -- il sera susceptible de maintenir cette situation.

Le jeu de l'assurance

Un jeu de l'assurance a la même structure qu'un dilemme du prisonnier, à ceci près que les récompenses en cas de coopération mutuelle sont plus importantes que si le partenaire fait défaut. Une matrice de gain ressemblera à :

1 \ 2 Coopère Trahit
Coopère (+10;+10) (+1;+5)
Trahit (+5;+1) (+3;+3)


Le jeu de l'assurance peut aboutir à un équilibre très stable, puisque l'équilibre le plus profitable est stable au sens de Nash : aucun n'a intérêt à dévier. Il est néanmoins possible qu'un joueur dévie par erreur, la confiance ou l'habitude sont alors remises en cause.

Ami ou ennemi

"Ami ou ennemi" (« Friend or Foe ») est un jeu actuellement diffusé sur une chaîne câblée aux États-Unis (Game Show Network). C'est un exemple de dilemme du prisonnier testé sur des particuliers dans un cadre artificiel. Sur le plateau, trois paires de participants s'affrontent. Quand une paire est éliminée, ses deux membres se répartissent leurs gains selon un dilemme du prisonnier. Si les deux coopèrent (« Friend »), ils partagent équitablement la somme accumulée au cours du jeu. Si aucun ne coopère (« Foe »), ils se quittent sans rien. S'il l'un coopère et que l'autre fait défaut, le premier part les mains vides et l'autre remporte le tout. La situation est un peu différente de la matrice canonique plus haut : le gain est le même pour qui voit sa confiance trahie ou qui emporte l'autre dans sa perte. Si un joueur sait que l'autre le trahira, sa réponse lui est indifférente. L'équilibre non-coopératif est donc neutre, alors qu'il est stable dans le cas habituel. La matrice à considérer est donc :

1 \ 2 Coopère Trahit
Coopère (+5;+5) (0;+10)
Trahit (+10;0) (0;0)

Ce jeu serait très utile pour qui souhaiterait analyser le dilemme du prisonnier sur un cas réel. Comme on ne peut participer qu'une fois au jeu, toutes les considérations concernant les jeux répétés ne sont pas applicables, la stratégie « Œil pour Œil » n'intervient pas.

Voir aussi

Bibliographie

Articles connexes

Liens externes

See also: Dilemme du prisonnier, 1950, 1984, Anglais, Autorégulation, Biologie