Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Învățarea automată (Machine Learning) – Un exemplu

Învățarea automată (Machine Learning) – Un exemplu

Să începem cu un exemplu. Să presupunem că suntem însărcinați cu asigurarea controlului automatizat al accesului la o clădire. Înainte de a intra în clădire, fiecare persoană trebuie să se uite într-o cameră pentru a putea face o imagine statică a feței sale. Pentru scopurile noastre este suficient doar să decidem pe baza imaginii dacă persoana poate intra în clădire. Ar putea fi util să (încercăm să) identificăm, de asemenea, fiecare persoană, dar acest lucru ar putea necesita un tip de informații pe care nu le avem (de exemplu, nume sau dacă există două imagini ale feței care corespund aceleiași persoane). Avem doar imagini de față cu persoane înregistrate în timp ce controlul accesului a fost încă furnizat manual. Ca urmare a acestei experiențe, am etichetat imagini. O imagine este etichetată pozitiv dacă persoana în cauză ar trebui să aibă acces și negativ în caz contrar. Pentru a completa setul de imagini etichetate negativ (deoarece ne-am aștepta doar la câteva cazuri de intrări refuzate în circumstanțe normale) putem folosi orice alte imagini de față ale unor persoane cărora nu ne așteptăm să li se permită să intre în clădire. Ar fi preferate imaginile realizate cu o orientare similară a feței camerei (de exemplu, din sistemele funcționale în alte clădiri). Sarcina noastră este aceea de a veni cu o funcție – un clasificator – care mapează imaginile pixelilor pe etichete binare (± 1). Și avem doar setul mic de imagini etichetate (setul de instruire) pentru a constrânge funcția.

Să facem sarcina ceva mai formală. Presupunem că fiecare imagine (în tonuri de gri) este reprezentată ca un vector coloană x de dimensiunea d. Deci, valorile intensității pixelilor din imagine, coloană cu coloană, sunt concatenate într-un singur vector coloană. Dacă imaginea are 100 pe 100 de pixeli, atunci d = 10000. Presupunem că toate imaginile au aceeași dimensiune. Clasificatorul nostru este o funcție binară de valoare f: Rd → {−1, 1} aleasă numai pe baza setului de instruire. Pentru sarcina noastră de aici, presupunem că clasificatorul nu știe nimic despre imagini (sau fețe de altfel) dincolo de setul de instruire etichetat. Deci, de exemplu, din punctul de vedere al clasificatorului, imaginile ar fi putut fi măsurători ale greutății, înălțimii, mai degrabă decât intensități ale pixelilor. Clasificatorul are doar un set de n vectori de antrenament x1, …, xn cu etichete binare ± 1: y1, …, yn. Aceasta este singura informație despre sarcină pe care o putem folosi pentru a constrânge funcția f.

Ce fel de soluție ar fi suficientă?

Să presupunem acum că avem n = 50 de imagini pixelate etichetate, care sunt 128 pe 128, iar intensitățile pixelilor variază de la 0 la 255. Prin urmare, este posibil să putem găsi un singur pixel, să spunem pixelul i, astfel încât fiecare dintre imaginile noastre au o valoare distinctă pentru acel pixel. Am putea construi apoi o funcție binară simplă bazată pe acest pixel unic care mapează perfect imaginile de antrenament pe etichetele lor. Cu alte cuvinte, dacă xti se referă la pixelul i în a t-a imagine de instruire, iar x’i este al i-lea pixel din orice imagine x’, atunci

(1)  fi(x) =

  • yt, dacă xti = xi pentru unele t = 1, …, n (în această ordine)
  • −1, altfel

ar părea să rezolve sarcina. De fapt, este întotdeauna posibil să veniți cu o astfel de funcție binară „perfectă” dacă imaginile de antrenament sunt distincte (nu există două imagini cu intensități de pixeli identice pentru toți pixelii). Dar ne așteptăm ca astfel de reguli să fie utile pentru imagini care nu fac parte din setul de instruire? Chiar și o imagine a aceleiași persoane variază oarecum de fiecare dată când este realizată imaginea (orientarea este ușor diferită, condițiile de iluminare s-au schimbat etc.). Aceste reguli nu oferă previziuni sensibile pentru imagini care nu sunt identice cu cele din setul de instruire. Principalul motiv pentru care astfel de reguli banale nu sunt suficiente este că sarcina noastră nu este să clasificăm corect imaginile de instruire. Sarcina noastră este de a găsi o regulă care să funcționeze bine pentru toate imaginile noi pe care le-am întâlni în setarea controlului accesului; setul de instruire este doar o sursă utilă de informații pentru a găsi o astfel de funcție. Pentru a spune ceva mai formal, am dori să găsim clasificatori care să generalizeze bine, cu alte cuvinte clasificatori a căror performanță pe setul de instruire să fie reprezentativă pentru cât de bine funcționează pentru imagini încă nevăzute.

Sursa: Tommi Jaakkola, material de curs pentru 6.867 Machine Learning, Fall 2006. MIT OpenCourseWare(http://ocw.mit.edu/), Massachusetts Institute of Technology. Descărcat în 04 iunie 2021. Licența CC BY-NC-SA 4.0. Traducere Nicolae Sfetcu

Acest articol este publicat sub licența CC BY-NC-SA 4.0

Ghidul Google SEO
Ghidul Google SEO

Ghidul de iniţiere Google privind optimizarea pentru motoarele de căutare, Versiunea 1.1, 13 noiembrie 2008 Acest document a fost lansat iniţial ca un efort pentru a ajuta echipele Google, însă este la fel de util şi pentru webmasterii începători în … Citeşte mai mult

Nu a fost votat $0.00 Selectează opțiunile
Marketing ecologic în Uniunea Europeană
Marketing ecologic în Uniunea Europeană

Într-o economie globalizată, nivelurile medii de consum sunt în creştere ca urmare: a populaţiei mondiale în creştere; sporirii numărului de consumatori cu venituri medii şi mici şi extinderii unei culturi generale a consumului; sistemelor economice din societăţile industrializate bazate pe … Citeşte mai mult

Nu a fost votat $0.00 Selectează opțiunile
Statistica pentru afaceri
Statistica pentru afaceri

Statistica pentru afaceri este un ghid practic elementar de statistică, cu eșantioanele de date și exemplele orientate spre afaceri. Statistica face posibilă analiza problemelor de afaceri din lumea reală cu date reale, astfel încât să puteți determina dacă o strategie … Citeşte mai mult

Nu a fost votat $3.99$8.55 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *