Home » Articole » Articole » Calculatoare » Inteligența artificială » Învățarea inteligenței artificiale

Învățarea inteligenței artificiale

Învățarea sistemelor de inteligență artificială (IA) să acționeze în funcție de valorile, obiectivele și preferințele umane este o problemă netrivială, deoarece valorile umane pot fi complexe și greu de specificat pe deplin. Atunci când li se oferă un obiectiv imperfect sau incomplet, sistemele IA direcționate către obiective învață de obicei să exploateze aceste imperfecțiuni. Acest fenomen este cunoscut sub numele de hacking de recompense sau jocuri de specificații în IA, și drept legea lui Goodhart în economie și în alte domenii. Cercetătorii urmăresc să specifice comportamentul dorit cât mai complet posibil cu seturi de date „țintite pe valori”, învățarea prin imitație sau învățarea preferințelor. O problemă centrală deschisă este supravegherea scalabilă, dificultatea de a supraveghea un sistem IA care depășește oamenii într-un anumit domeniu.

Atunci când antrenați un sistem IA orientat către obiective, cum ar fi un agent de învățare prin întărire (RL), este adesea dificil să specificați comportamentul dorit prin scrierea manuală a unei funcții de recompensă. O alternativă este învățarea prin imitație, în care IA învață să imite demonstrații ale comportamentului dorit. În învățarea prin întărire inversă (IRL), demonstrațiile umane sunt folosite pentru a identifica obiectivul, adică funcția de recompensă, din spatele comportamentului demonstrat. Învățarea cooperativă cu consolidare inversă (CIRL) se bazează pe aceasta presupunând că un agent uman și un agent artificial pot lucra împreună pentru a maximiza funcția de recompensă a omului. CIRL subliniază că agenții IA ar trebui să fie nesiguri cu privire la funcția de recompensă. Această umilință poate ajuta la atenuarea jocurilor cu specificații, precum și a tendințelor de căutare a puterii. Cu toate acestea, abordările de învățare cu întărire inversă presupun că oamenii pot demonstra un comportament aproape perfect, o presupunere înșelătoare atunci când sarcina este dificilă.

Alți cercetători au explorat posibilitatea de a provoca un comportament complex prin învățarea preferințelor. În loc să ofere demonstrații expert, adnotatorii umani oferă feedback cu privire la care dintre două sau mai multe dintre comportamentele IA preferă. Un model de ajutor este apoi antrenat pentru a prezice feedbackul uman pentru comportamente noi. Cercetătorii de la OpenAI au folosit această abordare pentru a antrena un agent să efectueze un backflip în mai puțin de o oră de evaluare, o manevră pentru care ar fi fost greu de oferit demonstrații. Învățarea preferințelor a fost, de asemenea, un instrument influent pentru sistemele de recomandare, căutarea pe web și regăsirea informațiilor. Cu toate acestea, o provocare este hackingul prin recompense: modelul de ajutor poate să nu reprezinte perfect feedback-ul uman, iar modelul principal poate exploata această nepotrivire.

Apariția unor modele de limbaj mari, cum ar fi GPT-3, a permis studiul învățării valorii într-o clasă de sisteme IA mai generală și mai capabilă decât era disponibilă înainte. Abordările de învățare a preferințelor concepute inițial pentru agenții RL au fost extinse pentru a îmbunătăți calitatea textului generat și pentru a reduce rezultatele dăunătoare din aceste modele. OpenAI și DeepMind folosesc această abordare pentru a îmbunătăți siguranța modelelor de limbaj mari de ultimă generație. Anthropic a propus folosirea învățării preferințelor pentru a ajusta modelele pentru a fi de ajutor, onest și inofensiv. Alte căi utilizate pentru alinierea modelelor de limbaj includ seturi de date țintite pe valori și gruparea roșie. În echipă roșie, un alt sistem IA sau un om încearcă să găsească intrări pentru care comportamentul modelului este nesigur. Deoarece comportamentul nesigur poate fi inacceptabil chiar și atunci când este rar, o provocare importantă este de a reduce rata de ieșiri nesigure extrem de scăzute.

În timp ce învățarea preferințelor poate insufla comportamente greu de specificat, necesită seturi extinse de date sau interacțiune umană pentru a capta întreaga amplitudine a valorilor umane. Etica mașinilor oferă o abordare complementară: insuflarea sistemelor IA cu valori morale. De exemplu, etica mașinilor își propune să învețe sistemele despre factorii normativi ai moralității umane, cum ar fi bunăstarea, egalitatea și imparțialitatea; fără intenția de a vătăma; evitarea falsurilor; și onorarea promisiunilor. Spre deosebire de specificarea obiectivului pentru o anumită sarcină, etica mașinilor încearcă să învețe sistemele IA valori morale largi care s-ar putea aplica în multe situații. Această abordare implică provocări conceptuale proprii; eticienii mașinilor au remarcat necesitatea de a clarifica ce anume urmărește să realizeze alinierea: ca IA să urmeze instrucțiunile literale ale programatorului, intențiile implicite ale programatorilor, preferințele revelate ale programatorilor, preferințele pe care programatorii le-ar avea dacă ar fi mai informați sau mai raționali, interese obiective sau standarde morale obiective. Alte provocări includ agregarea preferințelor diferitelor părți interesate și evitarea blocării valorii – păstrarea pe termen nedefinit a valorilor primelor sisteme IA de înaltă capacitate, care este puțin probabil să fie pe deplin reprezentative.

(Include texte traduse și adaptate din Wikipedia de Nicolae Sfetcu)

Introducere în inteligența artificială
Introducere în inteligența artificială

Pășește în era digitală pregătit să înțelegi și să aplici conceptele care schimbă lumea!

Nu a fost votat 14.32 lei25.09 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *