Interesul față de dilema prizonierului repetată a fost aprins de Robert Axelrod în cartea sa din 1984, Evoluția cooperării, în care relatează despre un turneu pe care l-a organizat despre dilema prizonierului în N trepte (cu N fixat) în care participanții trebuie să-și aleagă strategia în mod repetat și să-și amintească întâlnirile anterioare. Axelrod a invitat colegii academicieni din întreaga lume să elaboreze strategii computerizate pentru a concura într-un turneu repetat de dileme a prizonierilor. Programele care au fost introduse au variat mult în complexitatea algoritmică, ostilitatea inițială, capacitatea de iertare și așa mai departe.
Axelrod a descoperit că atunci când aceste întâlniri s-au repetat pe o perioadă lungă de timp cu mulți jucători, fiecare cu strategii diferite, strategiile lacome au avut tendința să se descurce foarte prost pe termen lung, în timp ce strategiile mai altruiste au avut mai bune rezultate, judecând doar după interesul propriu. El a folosit acest lucru pentru a arăta un posibil mecanism de evoluție a comportamentului altruist din mecanisme care sunt inițial pur egoiste, prin selecție naturală.
Strategia deterministă câștigătoare a fost cooperare-reciprocitate (tit for tat), dezvoltată și intrat în turneu de Anatol Rapoport. A fost cel mai simplu dintre toate programele înscrise, conținând doar patru linii de BASIC, și a câștigat concursul. Strategia este pur și simplu să cooperezi la prima iterație a jocului; după aceea, jucătorul face ceea ce a făcut adversarul său la mișcarea anterioară. În funcție de situație, o strategie puțin mai bună poate fi „cooperare-reciprocitate-iertare” (”tit for tat with forgiveness”): când adversarul defectează, la următoarea mișcare, jucătorul uneori cooperează oricum, cu o probabilitate mică (în jur de 1–5%, în funcție de formația adversarilor). Acest lucru permite recuperarea ocazională de la a rămâne prins într-un ciclu de defectări.
După ce a analizat strategiile cu cele mai bune scoruri, Axelrod a precizat câteva condiții necesare pentru ca o strategie să reușească:
- Binevoință: jucătorul nu va defecta înainte ca adversarul său să o facă (aceasta este uneori denumit algoritmic „optimist”). Aproape toate strategiile cu cele mai bune scoruri au fost binevoitoare. O strategie pur egoistă nu-și va „înșela” adversarul, mai întâi din motive de interes propriu.
- Răzbunare: jucătorul trebuie uneori să riposteze. Un exemplu de strategie fără represalii este Cooperare permanentă, o alegere foarte proastă care va fi frecvent exploatată de strategii „meschine”.
- Iertare: strategiile de succes trebuie să fie iertătoare. Deși jucătorii vor riposta, ei vor coopera din nou dacă adversarul nu continuă să defecteze. Acest lucru poate opri cursele lungi de răzbunare și contrarăzbunare, maximizând punctele.
- Neinvidie: strategia nu trebuie să se străduiască să înscrie mai mult decât adversarul.
Spre deosebire de jocul dilemei prizonierului de o singură dată, strategia optimă în dilema prizonierului repetată depinde de strategiile adversarilor probabili și de modul în care aceștia vor reacționa la defectări și cooperare. De exemplu, dacă o populație este formată în întregime din jucători care defectează întotdeauna, cu excepția unuia care urmează strategia „tit-for-tat”, acea persoană se află într-un ușor dezavantaj din cauza pierderii din prima rundă. Într-o astfel de populație, strategia optimă este să defectezi de fiecare dată. Mai general, având în vedere o populație cu un anumit procent de defectori mereu, restul fiind jucători „tit-for-tat”, strategia optimă depinde de procentul și numărul de iterații jucate.
(Include texte traduse și adaptate din Wikipedia de Nicolae Sfetcu)
Lasă un răspuns