Dilema prizonierilor este un experiment de gândire din teoria jocurilor care provoacă doi agenți complet raționali: fiecare poate coopera pentru beneficii reciproce sau își poate trăda partenerul („defecta”) pentru o recompensă individuală. Această dilemă a fost formulată inițial de Merrill Flood și Melvin Dresher în 1950, în timp ce lucrau la RAND. Albert W. Tucker a oficializat ulterior jocul structurând recompensele în termeni de pedepse cu închisoarea și l-a numit „dilema prizonierului”.
Jocul dilemei prizonierului poate modela multe situații din lumea reală care implică un comportament strategic. În uzul ocazional, eticheta „dilema prizonierului” poate fi aplicată oricărei situații în care două entități ar putea obține beneficii importante din cooperare sau ar putea suferi din cauza nerespectării acestui lucru, dar le este dificil sau costisitor să-și coordoneze activitățile.
Premisa
William Poundstone a descris această „versiune tipică contemporană” a jocului în cartea sa din 1993, Prisoner’s Dilemma:
Doi membri ai unei bande criminale sunt arestați și închiși. Fiecare prizonier este în izolare, fără mijloace de a vorbi sau de a schimba mesaje cu celălalt. Poliția recunoaște că nu are suficiente dovezi pentru a-i condamna pe cei doi pentru acuzația principală. Ei plănuiesc să-i condamne pe amândoi la un an de închisoare cu o acuzație mai mică. Concomitent, poliția oferă fiecărui prizonier un chilipir faustian. Dacă depune mărturie împotriva partenerului său, va fi liber, în timp ce partenerul va primi trei ani de închisoare pentru acuzația principală. Oh, da, există un șiretlic aici… Dacă ambii prizonieri depun mărturie unul împotriva celuilalt, ambii vor fi condamnați la doi ani de închisoare. Deținuților li se acordă puțin timp să se gândească la asta, dar în niciun caz niciunul nu poate afla ce a decis celălalt până când acesta nu a luat decizia în mod irevocabil. Fiecare este informat că celuilalt prizonier i se oferă exact aceeași propunere. Fiecare prizonier este preocupat doar de propria sa bunăstare – de minimizarea propriei pedepse cu închisoarea.
Acest lucru duce la patru rezultate posibile diferite pentru prizonierii A și B:
- Dacă A și B tac amândoi, fiecare va executa un an de închisoare.
- Dacă A depune mărturie împotriva lui B, dar B tace, A va fi eliberat în timp ce B ispășește trei ani de închisoare.
- Dacă A tace, dar B depune mărturie împotriva lui A, A va executa trei ani de închisoare și B va fi eliberat.
- Dacă A și B depun mărturie unul împotriva celuilalt, fiecare va fi închis câte doi ani.
Ca o proiecție a comportamentului rațional în termeni de loialitate față de partenerul cuiva în crimă, dilema prizonierului sugerează că infractorii cărora li se oferă o recompensă mai mare își vor trăda partenerul.
Loialitatea față de partenerul cuiva este, în acest joc, irațională. Această presupunere particulară a raționalității implică faptul că singurul rezultat posibil pentru doi prizonieri pur raționali este trădarea, chiar dacă cooperarea reciprocă ar aduce o recompensă netă mai mare. Au fost propuse idei alternative care guvernează comportamentul – vezi, de exemplu, Elinor Ostrom.
Cel mai bun răspuns, adică strategia dominantă, este să-l trădezi pe celălalt prizonier, ceea ce se aliniază cu principiul siguranței. Dilema prizonierului ilustrează, de asemenea, că deciziile luate în cadrul raționalității colective pot să nu fie neapărat aceleași cu cele luate în cadrul raționalității individuale. Acest conflict este evident și în „Tragedia comunelor”.
În realitate, părtinirea sistemică față de comportamentul cooperant are loc în ciuda predicțiilor făcute de modele simple de acțiune „rațională” interesată de sine. Această părtinire față de cooperare a fost evidentă de când acest joc a fost desfășurat pentru prima dată la RAND: secretarii implicați au avut adesea încredere unul în altul și au lucrat împreună pentru cel mai bun rezultat comun.
Dilema prizonierului a devenit centrul unor cercetări experimentale ample. Această cercetare a luat trei forme: joc unic (agenții joacă un singur joc), joc repetat (agenții joacă mai multe jocuri succesive) și joc repetat împotriva unui jucător programat. Cercetările privind dilema prizonierului au servit la justificarea imperativului categoric al lui Immanuel Kant, care susține că un agent rațional ar trebui să „acționeze în felul în care îți dorești ca ceilalți să acționeze”. Această teorie este vitală pentru o situație care implică diferiți jucători care acționează în interesul lor și care trebuie să ia în considerare acțiunile altora pentru a face propria lor alegere.
În varianta „iterativă” a jocului, în care doi agenți joacă unul împotriva celuilalt de mai multe ori, fiecare agent având posibilitatea de a-l penaliza pe celălalt pentru deciziile anterioare. Dacă jucătorii știu de câte ori jocul va fi jucat, atunci prin inducție înapoi doi jucători raționali clasic se vor trăda reciproc în mod repetat, din aceleași motive ca și varianta unui singur joc. Într-un joc de lungime infinită sau necunoscută, nu există o strategie optimă fixă, iar turneele cu dilema prizonierilor au fost organizate pentru a concura și a testa algoritmi pentru astfel de cazuri.
Versiunea repetată a dilemei prizonierului prezintă un interes deosebit pentru cercetători. Cercetătorii anteriori au observat că, datorită naturii iterative a experimentului, frecvența cooperării s-ar putea modifica în funcție de rezultatele fiecărei iterații. Mai exact, un jucător poate fi mai puțin dispus să coopereze dacă omologul său nu a cooperat de multe ori, ceea ce provoacă dezamăgire. În schimb, odată cu trecerea timpului, probabilitatea cooperării tinde să crească, datorită stabilirii unui „acord tacit” între jucătorii participanți. Un alt aspect al versiunii repetate a experimentului este că acest acord tacit între jucători a fost întotdeauna stabilit cu succes chiar și atunci când numărul de iterații este făcut public ambelor părți.
Strategie pentru dilema prizonierului
Doi prizonieri sunt despărțiți în camere individuale și nu pot comunica între ei. Jocul normal este prezentat mai jos:
Prizonierul B | Prizonierul B tace (cooperează) | Deținutul B depune mărturie (defectează) | |
Prizonierul A | |||
Prizonierul A tace (cooperează) | Fiecare ia 1 an | Prizonierul A: ia 3 ani Prizonierul B: iese liber |
|
Prizonierul A depune mărturie (defectează) | Prizonierul A: iese liber Prizonierul B: ia 3 ani |
Fiecare ia 2 ani |
Se presupune că ambii prizonieri înțeleg natura jocului, nu au loialitate unul față de celălalt și nu vor avea nicio șansă de răzbunare sau recompensă în afara jocului. Indiferent de ce decide celălalt, fiecare prizonier primește o recompensă mai mare prin trădarea celuilalt („defectarea”). Raționamentul implică analizarea celor mai bune răspunsuri ale ambilor jucători: B fie va coopera, fie va defecta. Dacă B cooperează, A ar trebui să defecteze, pentru că aieși liber este mai bine decât a fi închis 1 an. Dacă B defectează, și A ar trebui să defecteze, deoarece închisoarea de 2 ani este mai bună decât închisoarea de 3. Deci, în orice caz, A ar trebui să defecteze, deoarece defectarea este cel mai bun răspuns al lui A, indiferent de strategia lui B. Raționamentul paralel va arăta că B ar trebui să defecteze și el.
Defectarea are întotdeauna drept rezultat o răsplată mai bună decât cooperarea, deci este o strategie strict dominantă atât pentru A, cât și pentru B. Defectarea reciprocă este singurul echilibru Nash puternic din joc (adică, singurul rezultat din care fiecare jucător ar putea face mai rău doar în mod unilateral prin schimbarea strategiei). Dilema este că cooperarea reciprocă dă un rezultat mai bun decât defectarea reciprocă, dar nu este rezultatul rațional, deoarece alegerea de a coopera, dintr-o perspectivă interesată de sine, este irațională. Astfel, dilema prisonerului este un joc în care echilibrul Nash nu este eficient Pareto.
Forma generalizată
Structura dilemei prizonierului tradițională poate fi generalizată din cadrul său original. Să presupunem că cei doi jucători sunt reprezentați de culorile roșu și albastru și că fiecare jucător alege fie să „coopereze”, fie să „defecteze”.
Dacă ambii jucători cooperează, amândoi primesc recompensa R pentru cooperare. Dacă ambii jucători defectează, amândoi primesc plata pedepsei P. Dacă Albastrul defectează în timp ce Roșu cooperează, atunci Albastrul primește recompensa pentru tentație T, în timp ce Roșu primește plata „fraierului”, S. În mod similar, dacă Albastru cooperează în timp ce Roșu defectează, atunci Albastrul primește recompensa S, în timp ce Roșu primește recompensa T pentru tentație.
Aceasta poate fi exprimată în formă normală:
Matrice canonică a profiturilor PD:
Roșu | Cooperează | Defectează | |||
Albastru | |||||
Cooperează | R | T | |||
R | S | ||||
Defectează | S | P | |||
T | P |
și pentru a fi un joc de dilemă a prizonierului în sensul puternic, următoarea condiție trebuie să fie valabilă pentru plăți:
T > R > P > S
Relația de câștig R > P implică faptul că cooperarea reciprocă este superioară defectării reciproce, în timp ce relațiile de câștig T > R și P > S implică că ideea că defectarea este strategia dominantă pentru ambii agenți.
(Include texte traduse și adaptate din Wikipedia de Nicolae Sfetcu)
Lasă un răspuns