Proceduri frecventiste
Lucrările timpurii privind clasificarea statistică au fost întreprinse de Fisher, în contextul problemelor cu două grupuri, ceea ce a condus la funcția discriminantă liniară a lui Fisher ca regulă pentru atribuirea unui grup unei noi observații. Această lucrare timpurie a presupus că valorile datelor din fiecare dintre cele două grupuri au avut o distribuție normală multivariată. Extinderea aceluiași context la mai mult de două grupuri a fost, de asemenea, luată în considerare cu o restricție impusă conform căreia regula de clasificare ar trebui să fie liniară. Lucrările ulterioare pentru distribuția normală multivariată au permis clasificatorului să fie neliniar: pot fi derivate mai multe reguli de clasificare pe baza unor ajustări ușor diferite ale distanței Mahalanobis, o nouă observație fiind atribuită grupului al cărui centru are cea mai mică distanță ajustată de la observație.
Proceduri bayesiene
Spre deosebire de procedurile frecventiste, procedurile de clasificare bayesiană oferă o modalitate naturală de a lua în considerare orice informație disponibilă despre dimensiunile relative ale subpopulațiilor asociate cu diferitele grupuri din cadrul populației totale. Procedurile bayesiene tind să fie costisitoare din punct de vedere computațional și, în zilele dinainte ca metoda Monte Carlo a lanțului Markov să fie dezvoltată, au fost concepute aproximări pentru regulile de clustering bayesiene.
Unele proceduri bayesiene presupun calcularea probabilităților de apartenență la grup: acestea pot fi considerate ca oferind un rezultat mai informativ al unei analize de date decât o simplă atribuire a unei singure etichete de grup fiecărei observații noi.
Clasificare binară și multiclasă
Clasificarea poate fi gândită ca două probleme separate – clasificarea binară și clasificarea multiclasă. În clasificarea binară, o sarcină mai bine înțeleasă, sunt implicate doar două clase, în timp ce clasificarea multiclasă implică atribuirea unui obiect uneia dintre mai multe clase. Deoarece multe metode de clasificare au fost dezvoltate special pentru clasificarea binară, clasificarea multiclasă necesită adesea utilizarea combinată a mai multor clasificatori binari.
Vectori caracteristici
Majoritatea algoritmilor descriu o instanță individuală a cărei categorie urmează să fie prezisă folosind un vector caracteristic al proprietăților individuale măsurabile ale instanței. Fiecare proprietate este numită o caracteristică, cunoscută și în statistici ca o variabilă explicativă (sau variabilă independentă, deși caracteristicile pot fi sau nu independente din punct de vedere statistic). Caracteristicile pot fi diferite binare (de exemplu, „masculin” sau „femei”); categoric (de exemplu, „A”, „B”, „AB” sau „O”, pentru grupa de sânge); ordinale (de exemplu, „mare”, „mediu” sau „mic”); cu valori întregi (de exemplu, numărul de apariții ale unui anumit cuvânt într-un e-mail); sau cu valoare reală (de exemplu, o măsurare a tensiunii arteriale). Dacă instanța este o imagine, valorile caracteristicii pot corespunde pixelilor unei imagini; dacă instanța este o bucată de text, valorile caracteristicii pot fi frecvențe de apariție a cuvintelor diferite. Unii algoritmi funcționează numai în termeni de date discrete și necesită ca datele cu valoare reală sau cu valori întregi să fie discretizate în grupuri (de exemplu, mai puțin de 5, între 5 și 10 sau mai mari de 10)
Clasificatori liniari
Un număr mare de algoritmi de clasificare pot fi formulați în termeni de funcție liniară care atribuie un scor fiecărei categorii posibile k prin combinarea vectorului caracteristic al unei instanțe cu un vector de ponderi, folosind un produs punctual. Categoria prezisă este cea cu cel mai mare scor. Acest tip de funcție de scor este cunoscut sub numele de funcție de predicție liniară și are următoarea formă generală:
score(Xi , k) = βk•Xi ,
unde Xi este vectorul caracteristic, de exemplu i, βk este vectorul greutăților corespunzător categoriei k, iar score(Xi , k) este scorul asociat cu atribuirea instanței i la categoria k. În teoria alegerii discrete, în care instanțele reprezintă oameni și categoriile reprezintă opțiuni, scorul este considerat utilitatea asociată cu persoana i care alege categoria k.
Algoritmii cu această configurație de bază sunt cunoscuți drept clasificatori liniari. Ceea ce îi deosebește este procedura de determinare (antrenare) a ponderilor/coeficienților optimi și a modului în care este interpretat scorul.
Exemple de astfel de algoritmi sunt
- Regresia logistică și regresia logistică multinomială
- Regresia probit
- Algoritmul perceptron
- Mașinile vectoriale de suport
- Analiza discriminantă liniară.
Algoritmi
Exemple de algoritmi de clasificare includ:
- Clasificatori liniari
- Discriminantul liniar al lui Fisher
- Regresie logistică
- Clasificator bayesian naiv
- Perceptron
- Mașinile vectoriale de suport
- Mașinile vectoriale de suport pentru cele mai mici pătrate
- Clasificatori quadratici
- Estimarea kernelului
- k-cel mai apropiat vecin
- Boosting (meta-algoritm)
- Arborele de decizie
- Păduri aleatorii
- Rețele neuronale
- Rețele neuronale FMM
- Învățare cuantificare vectorială
Evaluare
Performanța clasificatorului depinde în mare măsură de caracteristicile datelor care trebuie clasificate. Nu există un singur clasificator care să funcționeze cel mai bine pentru toate problemele date (un fenomen care poate fi explicat prin teorema de prânz ne-gratuit). Au fost efectuate diverse teste empirice pentru a compara performanța clasificatorului și pentru a găsi caracteristicile datelor care determină performanța clasificatorului. Determinarea unui clasificator potrivit pentru o anumită problemă este totuși mai mult o artă decât o știință.
Precizia și reamintirea măsurilor sunt metrici populare utilizate pentru a evalua calitatea unui sistem de clasificare. Mai recent, curbele caracteristice de operare a receptorului (ROC) au fost folosite pentru a evalua compromisul dintre ratele pozitive adevărate și fals pozitive ale algoritmilor de clasificare.
Ca măsură de performanță, coeficientul de incertitudine are avantajul față de acuratețea simplă prin faptul că nu este afectat de dimensiunile relative ale diferitelor clase. În plus, nu va penaliza un algoritm pentru simpla rearanjare a claselor.
Domenii de aplicație
Clasificarea are multe aplicații. În unele dintre acestea este folosită ca procedură de extragere a datelor, în timp ce în altele se realizează modelări statistice mai detaliate.
- Viziune pe computer
- Imagistica medicală și analiza imaginilor medicale
- Recunoaștere optică a caracterelor
- Urmărire video
- Descoperirea și dezvoltarea medicamentelor
- Toxicogenomica
- Relația cantitativă structură-activitate
- Geostatistică
- Recunoaștere a vorbirii
- Scris de mână recunoscut
- Identificare biometrică
- Clasificare biologică
- Procesarea statistică a limbajului natural
- Clasificarea documentelor
- Motoarele de căutare pe Internet
- Scorajul creditului
- Recunoașterea formelor
- Clasificarea micro-matrice
Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu
Lasă un răspuns