Prisoners’ Dilemma – igen

Nogle gange kommer der overraskende nyt om et videnskabeligt problem, som man troede, at man kendte godt. Betragt to varetægtsfængslede, X og Y, der afhøres hver for sig efter en alvorlig forbrydelse. Begge får følgende at vide:

Du kan tilstå eller nægte at tilstå. Straframmen er denne: Hvis I begge tilstår, får I hver 5 års fængsel. Hvis du tilstår, men den anden nægter at tilstå, bliver du løsladt, men den anden får 20 års fængsel. Hvis I begge nægter at tilstå, får I begge 1 års fængsel.

Hvad bør de to varetægtsfængslede vælge at gøre? De kan ikke kommunikere med hinanden. Dette er, hvad man i spilteori kalder Prisoners’ Dilemma. Det kan bedst betale sig for fangerne samlet set at “samarbejde” om at nægte at tilstå, men for den enkelte fange kan det bedst betale sig at tilstå.

Jeg kan huske, hvordan Douglas Hofstadter skriver om Prisoners’s Dilemma i Metamagical Themas og hvordan han her undersøger forskellige strategier i det, man kalder den itererede udgave, dvs. hvor Prisoners’ Dilemma udføres et stort antal gange. Her skal hver spiller have en strategi, dvs. en funktion, der fortæller, hvilken beslutning spilleren skal tage. Strategien kan have uendelig hukommelse (dvs. at den som argument har følgen af alle tidligere valg), en funktion med endelig hukommelse (dvs. at den som argument har de seneste k spil) eller måske endda være hukommelsesløs.

En lille artikel fra i år af William H. Press og selveste Freeman J. Dyson giver opsigtsvækkende nyt om Prisoners’ Dilemma. Press og Dyson har opdaget strategier, der faktisk kan anvendes af spiller X til på deterministisk vis at styre spiller Ys score uafhængigt af spiller Ys valg af strategi. Men ikke nok med det, sådanne strategier kan også anvendes til at udøve systematisk afpresning mod Y. Eneste udvej for Y (og det er en vigtig udvej) er at have en teori om hvordan og hvorfor X handler, dvs. en “theory of mind”.

Artiklen er teknisk, men der er ikke meget, der er mere avanceret end lineær algebra fra første studieår på et naturvidenskabeligt studium. Den bør derfor kunne læses af ganske mange. De interessante strategier, Press og Dyson finder frem til, er strategier, hvor bestemte af søjlevektorerne i payoff-matricerne for de to spillere er lineært afhængige. De kalder derfor disse strategier for zero determinant-strategier.

Det interessante er det tilfælde, hvor både X og Y har en “theory of mind”, for da er afpresning ikke mulig. Press og Dyson skriver:

The extortionate ZD strategies have the peculiar property of sharply distinguishing between “sentient” players, who have a theory of mind about their opponents, and “evolutionary” players, who may be arbitrarily good at exploring a fitness landscape (either locally or globally), but who have no theory of mind. The distinction does not depend on the details of any particular theory of mind, but only on Y’s ability to impute to X an ability to alter her strategy.

Alexander Stewart og Joshua Plotkin har en god præsentation af artiklen og dens kontekst.

(Visited 509 times, 1 visits today)
Loading Facebook Comments ...

Skriv et svar