Pay-off matrix en de best response methode

In domein F: Samenwerken en onderhandelen wordt vaak gebruik gemaakt van de pay-off matrix (of opbrengstenmatrix). Met behulp van deze matrix moet bepaald worden:

  • welke dominante strategie de spelers hebben;
  • of de dominante strategieën leiden tot een Nash evenwicht;
  • of de dominante strategieën leiden tot een gevangenendilemma;

want voor havo beperkt zich de speltheorie tot het volgende:

  • er zijn slechts twee spelers die zich simultaan (= tegelijkertijd) bewegen;
  • de spelen worden niet herhaald;
  • de spelers hebben een dominante strategie;
  • de spelers beschikken over dezelfde informatie.

De pay-off matrix

Als voorbeeld van de pay-off matrix is gebruikt de pretparken matrix van het examen havo 2017 TV2.

De twee pretparken kunnen kiezen uit het wel of niet meedoen aan een kortingsactie. Beide pretparken gaan voor zichzelf na wat hun beste keuze is gegeven de keuze van de ander. Dat wordt gedaan met behulp van de best response methode: het telkens onderstrepen van de beste keuze.

De dominante strategieën van beide pretparken

De keuzes van Termin8or

  • Als Action4U meedoet met de kortingsactie dan is de beste keuze voor Termin8or om ook mee te doen: 280.000 is meer dan 250.000.
  • Als Action4U niet meedoet dan is de beste keuze voor Termin8or om mee te doen: 350.000 is meer dan 300.000.

Termin8or zal dus steeds kiezen voor wel meedoen, ongeacht wat Action4U doet. De dominante strategie van Termin8or is dus wel meedoen.

De keuzes van Action4U

  • Als Termin8or meedoet met de kortingsactie dan is de beste keuze voor Action4U om ook mee te doen: 240.000 is meer dan 200.000.
  • Als Termin8or niet meedoet dan is de beste keuze voor Action4U om mee te doen: 280.000 is meer dan 260.000.

Action4U zal dus steeds kiezen voor wel meedoen, ongeacht wat Termin8or doet. De dominante strategie van Action4U is dus wel meedoen.

Nash evenwicht

Een Nash evenwicht is een situatie binnen de speltheorie waarbij geen enkele speler zijn opbrengst kan verbeteren door eenzijdig een andere keuze te maken.Met andere woorden: een situatie waarbij het voor geen enkele speler voordelig is daarvan af te wijken, als de andere speler(s) dat niet ook doet.

In het Nash evenwicht kan geen enkele speler zichzelf verbeteren door eenzijdig een andere keuze te maken: in deze situatie is het voor geen enkele speler voordelig om een andere keuze te maken als de andere speler dat niet doet.

Elk streepje geeft de beste – eenzijdige – keuze van elke speler aan en het Nash evenwicht is dus altijd waar beide spelers met de best-respons-methode een streepje kregen.

Een hogere opbrengsten is dus alleen bereikbaar met behulp van de andere speler; Termin8or kan alleen 350.000 in plaats van 280.000 verdienen wanneer Action4U een andere keuze maakt. Action4U heeft altijd een hogere opbrengst wanneer ze meedoet met de kortingsactie (240.000 is meer dan 200.000 en 280.000 is meer dan 260.000). In dit geval is de uitkomst – dus het Nash evenwicht: 280.000 – 240.000.

Gevangenendilemma

In bovenstaand geval ontstaat een Nash evenwicht dat niet optimaal is: 280.000 – 240.000 is niet de beste uitkomst. Dit wordt een gevangenendilemma ofwel prisoners dilemma genoemd: een Nash evenwicht dat niet optimaal is. Eenzijdig handelen kan de uitkomst niet verbeteren, maar door samenwerking zou een betere uitkomst tot stand kunnen komen want dan zou het resultaat 300.000 – 260.000 zijn.

Kortom

  • In deze situatie ontstaat op basis van de dominante strategieën een Nash evenwicht: 280.000 – 240.00;
  • Dit Nash evenwicht is niet optimaal;
  • Optimaal zou zijn: 300.000 – 260.000; er is dus sprake van een gevangenendilemma.

Ω