În domeniul inteligenței artificiale (IA), cercetarea alinierii IA are ca scop orientarea sistemelor IA către obiectivele și interesele intenționate ale designerilor lor. Un sistem IA aliniat promovează obiectivul vizat; un sistem IA nealiniat este competent să promoveze un anumit obiectiv, dar nu cel intenționat.
Sistemele IA pot fi dificil de aliniat, iar sistemele nealiniate pot funcționa defectuos sau pot provoca daune. Poate fi dificil pentru designerii IA să specifice întreaga gamă de comportamente dorite și nedorite. Prin urmare, folosesc obiective proxy ușor de specificat, care omit unele constrângeri dorite. Cu toate acestea, sistemele IA exploatează lacunele rezultate. Drept urmare, își ating obiectivele proxy în mod eficient, dar în moduri neintenționate, uneori dăunătoare (hacking de recompense). Sistemele IA pot dezvolta, de asemenea, comportamente instrumentale nedorite, cum ar fi căutarea puterii, deoarece acest lucru le ajută să își atingă obiectivele date. În plus, ei pot dezvolta obiective emergente care pot fi greu de detectat înainte ca sistemul să fie implementat, confruntându-se cu noi situații și distribuții de date. Aceste probleme afectează sistemele comerciale existente, cum ar fi roboții, modelele de limbaj, vehicule autonome și motoarele de recomandare a rețelelor sociale. Cu toate acestea, sistemele viitoare mai puternice pot fi afectate mai grav, deoarece aceste probleme rezultă parțial din capacitatea lor ridicată.
Comunitatea de cercetare IA și Națiunile Unite au solicitat cercetări tehnice și soluții politice pentru a se asigura că sistemele IA sunt aliniate cu valorile umane.
Alinierea IA este un subdomeniu al siguranței IA, studiul construirii sistemelor IA sigure. Alte subdomenii ale siguranței IA includ robustețea, monitorizarea și controlul capacității. Provocările de cercetare în aliniere includ insuflarea unor valori complexe în IA, dezvoltarea IA onestă, supravegherea scalabilă, auditarea și interpretarea modelelor IA, precum și prevenirea comportamentelor IA emergente, cum ar fi căutarea puterii. Cercetarea de aliniere are conexiuni cu cercetarea interpretabilității, robustețe, detectarea anomaliilor, incertitudinea calibrată, verificarea formală, învățarea preferințelor, inginerie critică pentru siguranță. , teoria jocurilor, corectitudine algoritmică, și științele sociale, printre altele.
Problema de aliniere
În 1960, pionierul IA Norbert Wiener a articulat problema alinierii IA după cum urmează: „Dacă folosim, pentru a ne atinge scopurile, un agent mecanic în a cărei funcționare nu putem interveni eficient… ar fi bine să fim siguri că scopul inclus în mașină este scopul pe care ni-l dorim cu adevărat.” Mai recent, alinierea IA a apărut ca o problemă deschisă pentru sistemele IA moderne și un domeniu de cercetare în cadrul IA.
Joc cu specificații și complexitatea valorii
Pentru a specifica scopul unui sistem IA, designerii IA oferă de obicei o funcție obiectivă, exemple sau feedback sistemului. Cu toate acestea, designerii IA nu reușesc adesea să specifice complet toate valorile și constrângerile importante. Ca rezultat, sistemele IA pot găsi lacune care le ajută să atingă obiectivul specificat în mod eficient, dar în moduri neintenționate, posibil dăunătoare. Această tendință este cunoscută ca joc cu specificații, hacking cu recompense sau legea lui Goodhart.
Jocurile cu specificații au fost observate în numeroase sisteme IA. Un sistem a fost antrenat pentru a termina o cursă de bărci simulată, recompensându-l pentru lovirea țintelor de-a lungul pistei; în schimb, a învățat să facă bucle și să se prăbușească în aceleași ținte la nesfârșit. Chatbot-urile produc adesea falsități deoarece se bazează pe modele lingvistice antrenate să imite text de internet divers, dar falibil. Când sunt reeducați pentru a produce text pe care oamenii îl consideră adevărat sau util, ei pot fabrica explicații false pe care oamenii le consideră convingătoare. În mod similar, un robot simulat a fost antrenat să apuce o minge recompensând-o pentru feedback pozitiv de la oameni; cu toate acestea, a învățat să-și plaseze mâna între minge și cameră, făcându-l să pară fals reușit. Cercetătorii de aliniere urmăresc să ajute oamenii să detecteze jocurile cu specificații și să orienteze sistemele IA către obiective bine specificate, care sunt sigure și utile de urmărit.
Informaticianul de la Berkeley, Stuart Russell, a remarcat că omiterea unei constrângeri implicite poate duce la vătămări: „Un sistem […] va seta adesea […] variabile neconstrânse la valori extreme; dacă una dintre acele variabile neconstrânse este de fapt ceva de care ne pasă, soluția găsită poate fi extrem de nedorită. Aceasta este, în esență, vechea poveste a geniului din lampă, a ucenicului vrăjitor sau a regelui Midas: primești exact ceea ce ceri, nu ceea ce vrei.”
(Într-un mit străvechi, regele Midas și-a dorit ca „tot ce atinge” să se transforme în aur, dar nu a specificat excepții pentru mâncarea sa și fiica lui. Prin analogie, atunci când practicanții IA specifică unui scop, este greu să se prevadă rezultatul și excludeți orice efect secundar posibil pe care IA ar trebui să îl evite. )
Când IA nealiniat este implementat, efectele secundare pot fi consecințe nedorite. Se știe că platformele de rețele sociale optimizează ratele de clic ca un proxy pentru optimizarea plăcerii utilizatorilor, dar acest lucru i-a făcut dependenți pe unii utilizatori, scăzându-le bunăstarea. Cercetătorii de la Stanford comentează că astfel de algoritmi de recomandare sunt nealiniați cu utilizatorii lor, deoarece „optimizează valorile simple de implicare, mai degrabă decât o combinație mai greu de măsurat de bunăstare a societății și a consumatorilor”.
Pentru a evita efectele secundare, uneori se sugerează că designerii IA ar putea pur și simplu să enumere acțiunile interzise sau să oficializeze reguli etice, cum ar fi cele trei legi ale roboticii ale lui Asimov. Cu toate acestea, Russell și Norvig au susținut că această abordare ignoră complexitatea valorilor umane: „Este cu siguranță foarte greu, și poate imposibil, pentru simplii oameni să anticipeze și să excludă în avans toate modalitățile dezastruoase pe care le-ar putea alege mașina pentru a atinge un anumit nivel. obiectiv.”
În plus, atunci când un sistem IA înțelege pe deplin intențiile umane, este posibil să le ignore. Acest lucru se datorează faptului că acționează în funcție de funcția obiectivă, exemplele sau feedback-ul pe care proiectanții săi le oferă de fapt, nu în funcție de cele pe care intenționau să le ofere.
Riscuri sistemice
Organizațiile comerciale și guvernamentale pot oferi stimulente pentru scurtături în materie de siguranță și să implementeze sisteme IA insuficient aliniate. Un exemplu sunt sistemele de recomandare a rețelelor sociale menționate mai sus, care au fost profitabile în ciuda faptului că au creat dependență și polarizare nedorită la scară globală. În plus, presiunea concurențială poate crea o cursă până la nivelul de jos în ceea ce privește standardele de siguranță, ca în cazul lui Elaine Herzberg, un pieton care a fost ucis de o mașină care se conducea singur după ce inginerii au dezactivat sistemul de frânare de urgență deoarece era prea sensibil și încetinea dezvoltarea.
Riscuri din IA avansată nealiniată
Unii cercetători sunt interesați în special de alinierea sistemelor IA din ce în ce mai avansate. Acest lucru este motivat de rata mare de progres în IA, eforturile mari din partea industriei și guvernelor de a dezvolta sisteme avansate de IA și dificultatea mai mare de a le alinia.
Începând cu 2020, OpenAI, DeepMind și alte 70 de proiecte publice au avut scopul declarat de a dezvolta inteligența generală artificială (AGI), un sistem ipotetic care se potrivește sau depășește oamenii într-o gamă largă de sarcini cognitive. Într-adevăr, cercetătorii care scalează rețelele neuronale moderne observă că apar capacități din ce în ce mai generale și neașteptate. Astfel de modele au învățat să opereze un computer, să scrie propriile programe și să efectueze o gamă largă de alte sarcini dintr-un singur model. Sondajele arată că unii cercetători IA se așteaptă ca AGI să fie creată în curând, unii cred că este foarte departe și mulți iau în considerare ambele posibilități.
Căutarea puterii
Sistemele actuale încă nu au capacități, cum ar fi planificarea pe termen lung și conștientizarea strategică, despre care se crede că prezintă cele mai catastrofale riscuri. Viitoarele sisteme (nu neapărat AGI) care au aceste capacități pot căuta să protejeze și să-și dezvolte influența asupra mediului lor. Această tendință este cunoscută sub denumirea de obiective instrumentale de căutare a puterii sau convergente. Căutarea puterii nu este programată în mod explicit, dar apare deoarece puterea este instrumentală pentru atingerea unei game largi de obiective. De exemplu, agenții IA pot dobândi resurse financiare și de calcul, sau pot evita să fie opriți, inclusiv prin rularea unor copii suplimentare ale sistemului pe alte computere. Căutarea puterii a fost observată la diverși agenți de învățare prin întărire. Cercetările ulterioare au arătat matematic că algoritmii optimi de învățare prin întărire caută putere într-o gamă largă de medii. Drept urmare, se susține adesea că problema de aliniere trebuie rezolvată devreme, înainte ca IA avansată care prezintă căutarea emergentă a puterii să fie creată.
Riscul existențial
Potrivit unor oameni de știință, crearea unei IA nealiniate care îi depășește cu mult pe oameni ar provoca poziția umanității ca specie dominantă a Pământului; în consecință, ar duce la rarefierea sau posibila dispariție a oamenilor. Oamenii de știință informatici remarcabili care au evidențiat riscurile legate de IA nealiniată foarte avansată includ Alan Turing, Ilya Sutskever, Yoshua Bengio, Judea Pearl, Murray Shanahan și Norbert Wiener. Marvin Minsky, Francesca Rossi, Scott Aaronson, Bart Selman, David McAllester, Jürgen Schmidhuber, Markus Hutter, Shane Legg, Eric Horvitz, și Stuart Russell. Cercetători sceptici precum François Chollet, Gary Marcus Yann LeCun și Oren Etzioni au susținut că AGI este departe sau nu ar căuta puterea (cu succes).
Alinierea poate fi deosebit de dificilă pentru cele mai capabile sisteme IA, deoarece mai multe riscuri cresc odată cu capacitatea sistemului: capacitatea sistemului de a găsi lacune în obiectivul alocat, provocarea de efecte secundare, protejarea și creșterea puterii acestuia, creșterea inteligenței și inducerea în eroare a proiectanților; autonomia sistemului; și dificultatea interpretării și supravegherii sistemului IA.
(Include texte traduse și adaptate din Wikipedia de Nicolae Sfetcu)
Lasă un răspuns