Când oamenii obișnuiți aud cuvintele „Știința datelor”, pariez că primele imagini care le vin în minte sunt cele ale domeniilor strâns legate de mineritul datelor vs. învățarea automată (ML), chiar dacă nu cunosc acești termeni. La urma urmei, aici se află toată tehnologia atrăgătoare și, de asemenea, poveștile de succes: Netflix știind ca prin magie ce filme îți vor plăcea, lanțurile de magazine alimentare folosind date de pe cardurile de fidelitate pentru a plasa optim produsele; Oakland A’s care cercetează statisticile ligilor minore pentru a construi o echipă campioană cu bani puțini (vezi: Moneyball). Există, de asemenea, aplicații mai tari ale acestei tehnologii: Google plasează reclame personalizate atrăgătoare în fața ta folosind datele pe care le-a extras din textul e-mailului tău sau Cambridge Analytica proiectează de la personalitățile alegătorilor la cele mai bune modalități de a-i micro-ținti.
Toate aceste exemple au un lucru în comun: ele fac de fapt descoperirile și predicțiile din date. Ele sunt lovitura de grație. Acestea au loc după ce am achiziționat deja datele noastre, le-am importat într-un mediu de analiză (cum ar fi Python), le-am stocat în structurile de date corespunzătoare (cum ar fi tablouri asociative sau tabele), le-am recodificat/ transformat/ preprocesat după cum este necesar, și le-am explorat suficient pentru a ști ce vrem să întrebăm. Toate acestea au fost doar o muncă pregătitoare. Acest capitol este locul unde începem să ne mișcăm cu adevărat.
Termenii „mineritul datelor” și „învățarea automată” se suprapun mult, dar o distincție pe care o putem evidenția este următoarea. Dacă cineva spune că face mineritul datelor, scopul său este în mod normal inferența: obținerea de informații strategice la nivel înalt bazate pe modele din date. Descoperirea faptului că, în baseball, performanțele de lansare (pitching) ale amatorilor sunt mai fiabile în ligile majore decât performanțele de lovire cu bâta (batting) ale amatorilor, în general, este o inferență și o descoperire potențial valoroasă.
Pe de altă parte, dacă cineva spune că face învățarea automată, scopul său este în mod normal predicția: formularea unei presupuneri informate despre cum se va termina un caz specific. Când anticipăm câte home run-uri credem că va obține un jucător promițător de la facultate în primii doi ani în ligile majore, facem o predicție specifică, mai degrabă decât deducem un adevăr general – și acest lucru este potențial destul de valoros, deoarece ne-ar putea determina să decidem să semnăm cu jucătorul sau să analizăm alte opțiuni.
Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2024 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1
Lasă un răspuns