Prisoners’ dilemma – Gevangenendilemma

Het prisoner’s dilemma – het gevangenendilemma is een begrip dat vaak als illustratie in de speltheorie wordt gebruikt.

Uitgangspunten zijn:

  • Het spel kent twee spelers;
  • Het spel is simultaan: beide spelers moeten tegelijkertijd beslissen;
  • Het spel is non-coöperatief: er is geen contact tussen de spelers;
  • Het spel levert een resultaat op dat niet het gunstigste is, beide spelers kunnen een beter resultaat behalen.

Een veel voorkomende formulering is de volgende situatie:

Er is een roofoverval gepleegd door twee gewapende personen: Hans en Grietje. Ze worden gepakt en het staat vast dat het de daders zijn, maar het bewijs ontbreekt. Ze worden apart in de cel gezet en kunnen niet met elkaar communiceren. De openbaar aanklager doet elke verdachte het volgende voorstel:

  1. Als jullie allebei blijven zwijgen, kan ik de roofoverval niet bewijzen. Jullie krijgen dan 1 jaar gevangenisstraf wegens wapenbezit zonder vergunning.
  2. Als er een bekent, is de zaak rond. Degene die bekende zal ik vrijspreken omdat hij zo goed heeft meegewerkt en degene die zwijgt krijgt 8 jaar gevangenisstraf.
  3. Als jullie allebei bekennen, krijgen jullie allebei 5 jaar gevangenis.

De vraag is: wat kan een gevangene het beste doen?

De essentie van het dilemma is dat het voor beide verdachten samen beter is te zwijgen, maar elke verdachte denkt alleen aan zijn eigen voordeel. Ongeacht wat de ander doet, het is voor elke verdachte beter om te bekennen. Immers, als de ander zou zwijgen heeft bekennen voor jou het grootste voordeel, en als de ander bekent, heeft wederom voor jou bekennen het grootste voordeel. Bekennen is dus de dominante strategie.

De keuzemogelijkheden staan in onderstaande tabel waarbij de keuzes van Hans in blauw zijn weergegeven en die van Grietje in rood.

Grietje
zwijgt bekent
Hans zwijgt 1 , 1 8 , 0
bekent 0 , 8 5 , 5

Hans komt als volgt tot de conclusie:

  • Als Grietje zwijgt en ik zwijg, krijg ik 1 jaar. Als Grietje zwijgt en ik beken krijg ik 0 jaar. Mijn beste keuze is bekennen want 0 jaar is beter dan 1 jaar.
  • Als Grietje bekent en ik zwijg, krijg ik 8 jaar. Als Grietje bekent en ik beken, krijg ik 5 jaar. Mijn beste keuze is bekennen want 5 jaar is beter dan 8 jaar.
  • De dominante strategie van Hans is dus bekennen.

Grietje komt als volgt tot de conclusie:

  • Als Hans zwijgt en ik zwijg, krijg ik 1 jaar. Als Hans zwijgt en ik beken krijg ik 0 jaar. Mijn beste keuze is bekennen want 0 jaar is beter dan 1 jaar.
  • Als Hans bekent en ik zwijg, krijg ik 8 jaar. Als Hans bekent en ik beken, krijg ik 5 jaar. Mijn beste keuze is bekennen want 5 jaar is beter dan 8 jaar.
  • De dominante strategie van Grietje is dus bekennen.

In de volgende tabel zijn steeds de keuzes van beide spelers onderstreept. De cel waarin beide keuzes onderstreept zijn, is de uitkomst van het spel: in dit geval de cel rechtsonder. Deze uitkomst wordt het gevangenendilemma genoemd omdat het resultaat niet optimaal is. Beide spelers hadden een betere uitkomst kunnen krijgen zonder dat de ander erdoor benadeeld wordt namelijk ieder 1 jaar gevangenisstraf.

Grietje
zwijgt bekent
Hans zwijgt 1 , 1 8 , 0
bekent 0 , 8 5 , 5

Dit probleem is dus een kwestie van vertrouwen. Zouden beide verdachten elkaar door en door vertrouwen dan zouden ze samenwerken en zouden ze beiden beter af zijn. Het gevangenendilemma kenmerkt zich dan ook door het feit dat wat de ander ook doet, jij altijd dezelfde strategie kiest, de dominante strategie.

In het algemeen spreekt men in het prisoners’ dilemma van ‘samenwerken’ en ‘deserteren’ (in het Engels: cooperate en defect). In het klassieke dilemma is het samenwerken dus zwijgen (want als beide spelers dat doen, komen ze er gezamenlijk het beste vanaf) en deserteren is bekennen: men kiest dan voor het eigen hachje.

Vervoer

In deze situatie gaan mensen op hetzelfde moment naar hun werk. Je kunt de bus nemen of de auto. Reizen met de bus duurt tien minuten langer doordat je naar de bushalte moet lopen en doordat de bus een omweg via haltes maakt. Als echter meer mensen de auto nemen ontstaat er een file, en daar heeft de bus ook last van.

Ik neem de bus Ik neem de auto
De meesten nemen de bus 20 minuten 10 minuten
De meesten nemen de auto 130 minuten 120 minuten

Hier zie je hetzelfde resultaat als met het prisoners’ dilemma. Ongeacht wat de anderen doen, het is altijd beter voor mezelf om de auto te nemen, ook al is er een duidelijke aansporing om collectief het openbaar vervoer te nemen.

Adverteren

In dit voorbeeld nemen we Coca Cola en Pepsi Cola. Beide bedrijven geven jaarlijks miljarden euro’s uit aan reclame. Reclame maken is zinvol, want consumenten kopen voornamelijk producten waar reclame voor gemaakt wordt. Reclame snoept dus consumenten af van de concurrentie. Maar er wordt in totaal nauwelijks méér cola gedronken; de markt wordt dus niet groter. Beide colaproducenten zouden erop vooruit gaan als ze geen reclame zouden maken, maar ze zitten gevangen in het gevangenendilemma en blijven dus grote hoeveelheden geld uitgeven aan reclame. Het eindresultaat is dus dat beide producenten reclamekosten maken, zonder dat ze meer klanten krijgen. De matrix lijkt een nulsomspel te beschrijven (immers, beide spelers verdelen een markt die niet groter of kleiner wordt: wat de een wint, verliest de ander). Het is echter geen nulsomspel wanneer de reclamekosten worden meegerekend. In dat geval is er een gezamenlijk voordeel te behalen door allebei niet te adverteren, en hebben we dus inderdaad weer een prisoners’ dilemma.

Pepsi Cola
geen reclame wel reclame
Coca Cola geen reclame 100 , 100 25 , 150
wel reclame 150 , 25 75 , 75

In de tabel staan de opbrengsten van de colamarkt, die 200 groot is. Iedere producent heeft in de uitgangssituatie een gelijk aandeel in deze markt, dus ieder verdient 100. Er wordt in de uitgangssituatie geen reclame gemaakt.

Als een van de producenten reclame gaat maken, stijgen haar verdiensten terwijl de verdiensten van de ander dalen. Coca Cola wil haar marktaandeel vergroten en gaat voor 25 reclame maken. Hierdoor haalt Coca Cola voor 75 verdiensten weg bij Pepsi Cola. Met reclame verdient Coca Cola: 100 + 75 – 25 = 150. De verdiensten van Pepsi Cola dalen tot 25: 100 – 75 = 25. Andersom geldt hetzelfde: als Pepsi Cola voor 25 reclame gaat maken stijgen haar verdiensten tot 150, terwijl die van Coca Cola tot 25 dalen.

Als beide producenten reclame gaat maken, halen ze geen klanten weg bij de ander, maar ze geven weg 25 uit aan reclame: de verdiensten van beiden dalen tot 100 – 25 = 75. Toch geven beide producenten geld uit aan reclame, want als de ene het niet doet, doet de andere het wel. Voor beiden geldt dat ze het beste af zijn met het maken van reclame, want dat levert ze alletwee het meeste op. Reclame maken is dus voor beiden de dominante strategie. In dit evenwicht – het Nash-evenwicht, waarbij geen van de spelers zich kan verbeteren gegeven de keuze van de ander – is de markt in evenwicht.

Zouden beide producenten elkaar vertrouwen, dan kunnen ze een evenwicht bereiken dat hun beide meer zou opleveren, namelijk ieder een opbrengst van 100 zonder het maken van reclame.

Dit is een klassiek voorbeeld van het gevangenendilemma.