Selecția modelului
Deci, cum putem găsi clasificatori care generalizează bine? Cheia este de a constrânge setul de posibile funcții binare pe care le putem folosi. Cu alte cuvinte, am dori să găsim o clasă de funcții binare astfel încât, dacă o funcție din această clasă funcționează bine pe setul de antrenament, este probabil să funcționeze bine și asupra imaginilor nevăzute. Clasa „corectă” de funcții de luat în considerare nu poate fi prea mare în sensul să conțină prea multe funcții clar diferite. În caz contrar, este posibil să găsim reguli similare celor banale, care sunt aproape perfecte în setul de antrenament, dar nu se generalizează bine. Nici clasa de funcții nu ar trebui să fie prea mică, altfel riscăm să nu găsim nicio funcție din clasă care să funcționeze bine chiar și pe setul de antrenament. Dacă nu funcționează bine pe setul de antrenament, cum ne putem aștepta ca acestea să funcționeze bine pe noile imagini? Găsirea clasei de funcții este o problemă cheie în învățarea automată, cunoscută și sub numele de problema de selecție a modelului.
Clasificatori liniari prin origine
Să reparăm clasa de funcții pentru moment. Mai exact, vom lua în considerare doar un tip de clasificatori liniari. Acestea sunt mapări liniare limitate de la imagini la etichete. Mai formal, luăm în considerare doar funcțiile de forma
f (x;θ) = sign(θ1x1 + … + θdxd) = sign(θTx) (2)
unde θ = [θ1,. . . , θd] T este un vector coloană cu parametri reali evaluați. Setările diferite ale parametrilor oferă funcții diferite în această clasă, adică funcții a căror valoare sau ieșire în {−1, 1} ar putea fi diferite pentru unele imagini de intrare x. Cu alte cuvinte, funcțiile din clasa noastră sunt parametrizate de θ ∈ Rd.
De asemenea, putem înțelege geometric acești clasificatori liniari. Clasificatorul își schimbă predicția numai atunci când argumentul funcției de semn se schimbă de la pozitiv la negativ (sau invers). Geometric, în spațiul vectorilor de imagine, această tranziție corespunde traversării limitei de decizie unde argumentul este exact zero: toate x astfel încât θTx = 0. Ecuația definește un plan în d dimensiuni, un plan care trece prin origine, deoarece x = 0 satisface ecuația. Vectorul parametru θ este normal (ortogonal) pe acest plan; acest lucru este clar, deoarece planul este definit ca toate x pentru care θTx = 0. Vectorul θ ca normal al planului specifică, de asemenea, direcția în spațiul imaginii de-a lungul căreia valoarea lui θTx ar crește cel mai mult.
Figura 1 Clasificatori liniari prin origine
Înainte de a trece mai departe, să vedem dacă am pierdut unele proprietăți utile ale imaginilor ca urmare a restricționării noastre la clasificatori liniari. De fapt, am pierdut. Luați în considerare, de exemplu, modul în care pixelii din apropiere din imaginile feței se raportează (de exemplu, continuitatea pielii). Aceste informații sunt complet pierdute. Clasificatorul liniar este perfect fericit (adică, capacitatea sa de a clasifica imaginile rămâne neschimbată) dacă obținem imagini în care pozițiile pixelilor au fost reordonate, cu condiția să aplicăm aceeași transformare tuturor imaginilor. Această permutare de pixeli doar reordonează termenii din argument în funcția de semn din ecuația (2). Prin urmare, un clasificator liniar nu are acces la informații despre pixelii care sunt apropiați unul de celălalt în imagine.
Sursa: MIT Open Courseware, Machine Learning. Licența CC BY-NC-SA 4.0. Traducere Nicolae Sfetcu
1 Tommi Jaakkola, material de curs pentru 6.867 Machine Learning, Fall 2006. MIT OpenCourseWare(http://ocw.mit.edu/), Massachusetts Institute of Technology. Descărcat în 04 iunie 2021.
Acest articol este publicat sub licența CC BY-NC-SA 4.0
Lasă un răspuns