Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Știința datelor

Știința datelor

Știința datelor a schimbat lumea, așa cum aproape niciun alt domeniu nu a făcut-o, și pe o scară de timp incredibil de scurtă. Cu doar câteva decenii în urmă, întreprinderile și organizațiile luau în mod obișnuit decizii majore bazate pe sentimente intestinale și observații anecdotice. Medicii observau seturi de simptome și diagnosticau pacienții în mare parte pe baza afecțiunilor pe care ei înșiși le-au văzut înainte. Vânzătorii online ofereau recomandări de produse care aveau sens pentru ei, lipsind cu desăvârșire tiparele și tendințele care ar deveni evidente dacă ar fi luate în considerare caracteristicile și tiparele de cumpărare ale clienților anteriori.

O parte din motivul pentru care factorii de decizie au făcut aceste alegeri suboptimale s-au datorat faptului că nu era încă clar cât de utilă este știința datelor. Un alt motiv a fost că tehnologia încă nu exista: puterea de procesare și capacitatea de stocare pentru a lucra cu seturi de date extrem de mari nu erau disponibile în mod obișnuit și, desigur, datele în sine nu fuseseră încă colectate. Aceste motive nu mai există! Toate aceste părți sunt aici acum. Și oarecum incredibil, toate vă stau la dispoziție pentru un cost redus (sau chiar gratuit).

Aceasta este era științei datelor. Dacă doriți să înțelegeți și să aveți un impact asupra lumii voastre, sincer nu mă pot gândi la un domeniu mai bun în care să vă scufundați decât acesta, indiferent de sfera dvs. de interes. Abilitatea de a comanda aceste tehnici și instrumente vă oferă atât o mare înțelegere, cât și o mare putere de a influența modul în care viața de pe planeta Pământ se desfășoară de acum înainte.

Când oamenii întreabă ce este știința datelor, iată o posibilă definiție: obținerea cunoașterii din date. Dar interpretarea acestei fraze implică disecarea diferenței dintre „cunoaștere” și „date”, doi termeni înrudiți, dar diferiți. Și asta ne aduce la ierarhia de la date la înțelepciune, descrisă în Figura 1.1. Să o descompunem.

Ierarhia date-înțelepciune (Figura 1.1: Ierarhia date-înțelepciune.)

Lumea reală

În cele din urmă, ceea ce ne interesează nu sunt datele, ci aspecte ale lumii reale – vânzările de albume și vizionările videoclipurilor, prețurile acțiunilor și ratele de ocupare, traiectoriile uraganelor și punctele fierbinți ale virusului sau orice altceva. Știința datelor nu poate începe cu adevărat până când nu are loc un fel de achiziție de date care înregistrează măsurători ale lumii reale în formă electronică.

Sună evident, dar este important să ții cont, de fapt. Indiferent cât de mult timp petrecem lucrând cu date, datele nu contează niciodată – contează fenomenul real pe care îl reprezintă datele. Ar putea părea ciudat să spunem că „datele” sunt doar întâmplătoare pentru un om de știință, dar este adevărat. Și există oameni de știință de date care se concentrează atât de mult pe date încât uită acest adevăr de bază.

O observație importantă este că deciziile cu privire exact la ce datele să colectăm din lumea reală sunt adesea cruciale în modul în care lucrurile sunt interpretate ulterior. Pentru a lua un exemplu aproape de noi, să presupunem că colectăm informații despre profesorii universitari, astfel încât să putem stabili care sunt universitățile cu cele mai performante facultăți și cum s-ar putea schimba acest lucru de-a lungul anilor. Alegem un set reprezentativ de criterii pe care să le măsurăm pentru fiecare membru al facultății pentru a obține o evaluare aproximativă a performanței lor. Să presupunem că alegem trei lucruri: numărul de lucrări de cercetare pe care profesorul le publică în fiecare an, suma totală a fondurilor pentru cercetare care le-au fost acordate, și scorul mediu de evaluare a cursurilor pe care le predau. Aceasta pare a fi o primă reducere bună la evaluarea „performanței facultății”. Apoi mergem pe drumul nostru fericit de știință a datelor, găsind corelații, realizând vizualizări de date și tragând concluzii.

Toate acestea sunt bune și frumoase, cu condiția să ținem cont întotdeauna că aceste trei calități și numai acele trei le-am colectat deocamdată. În cazul în care studiul nostru câștigă vreo tracțiune, iar profesorii universitari consideră că au un interes major să fie clasați pe poziția înaltă în studiul nostru anual, vom descoperi că acționează pentru a maximiza doar categoriile colectate. Nu am adunat date despre câte comitete universitare au servit, sau câte studii independente au supravegheat, sau câte consilieri au avut etc.

Aceste valori vor deveni inevitabil minimizate ca importanță, pentru că nu au fost parte din ceea ce am eliminat din lumea reală și pe treapta inferioară a lanțului nostru superior.

Morala este: ceea ce măsurăm contează, de multe ori mai mult decât ne dăm seama. PIB-ul țării noastre și media industrială Dow Jones sunt lucruri ușor de cuantificat și așa facem deseori. Și astfel câștigă o mare importanță în analizele economiei. Dar sunt de fapt cei mai importanți indicatori? Concentrarea asupra lor lasă deoparte alte repere, poate mai vitale? Vom lăsa deoparte această întrebare, deocamdată.

Date

Ați dat vreodată sânge, să zicem pentru o analiză medicală anuală? Eu, da. Îmi place să mă uit peste cifre când doctorul îmi dau rezultatele, și mă întreb chicoting ce înseamnă toate acestea. Pentru mine, ca non-medic, toate aceste datele sunt fără sens. Mi-au spus că TBC-ul meu este de 4,93 x10E6/μL, că am 5,7 neutrofile absolute și un NT-proBNP ușor în afara intervalului (doar 53,49 pg/mL, indiferent de ce naiba ar însemna).

Când folosesc cuvântul date în contextul ierarhiei, la asta mă refer: măsurători înregistrate, adesea (dar nu întotdeauna) cantitative, care nu au fost încă interpretate. Ele pot fi foarte precise, dar sunt, de asemenea, destul de lipsite de sens fără contextul în care să le înțelegem. Ar fi chiar lipsit de sens pentru un medic dacă nu aș furniza etichetele; încercați să-i spuneți medicului că aveți 4,93 „ceva” și vedeți dacă el/ea se dumirește.

Vestea bună este că, atunci când suntem în stadiul de date al ierarhiei, cel puțin avem lucrurile într-o formă electronică, astfel încât să putem începe să facem ceva cu ele. De asemenea, facem adesea alegeri în această etapă cu privire la modul de organizare a datelor, alegând tipul adecvat de structuri de date atomice și / sau agregate pe care le vom discuta în detaliu ulterior. Acest lucru ne va permite să aducem echipamentele noastre de analiză pentru a aborda problema în moduri puternice.

Informații

Datele devin informații atunci când ne informează despre ceva; adică atunci când știm ce înseamnă. Obținerea unor cantități mari de date organizate, formatate și etichetate în modul corect sunt elemente de lucru pentru cercetătorul de date, deoarece transformarea acelei brambureli în cunoștințe utile este imposibilă fără acești pași. Când aspectele lumii reale pe care le-am colectat sunt structurate corespunzător și semnificative din punct de vedere conceptual, suntem pe drumul bun.

Cunoaștere

Acum cunoașterea este acolo unde se află acțiunea reală. După cum se arată în Figura 1.1, cunoașterea constă în adevăruri generalizabile.

Iată ce vreau să spun. Informațiile sunt despre anumite persoane sau evenimente. Când spunem „Chandra este o casieră bancară și câștigă 48.000 de dolari pe an” sau „Alex este un casier de sex masculin și câștigă 69.000 de dolari pe an”, avem în depozitul nostru de informații câteva fapte individuale. Acestea pot fi căutate și consultate atunci când este necesar.

Dar dacă spunem „femeile câștigă mai puțini bani decât bărbații, chiar și la aceleași locuri de muncă”, ne aflăm într-un domeniu complet diferit. Acum am generalizat de la fapte specifice la tendințe mai ample. În limba disciplinei noastre, am trecut de la informații la cunoaștere.

Obținerea corectă a cunoașterii din informații este o afacere mai complicată decât interpretarea punctelor de date individuale. Există reguli stabilite, unele dintre ele matematice, pentru a determina când un model aparent este de fapt fiabil, ce tipuri de relații pot fi detectate cu datele, dacă o relație este cauzală și așa mai departe. Cunoașterea – spre deosebire de simpla informație – deschide o lume cu totul nouă a înțelegerii. Lumea nu mai este limitată la o colecție haotică de observații individuale: putem începe acum să înțelegem modurile generale în care funcționează lumea … și poate chiar să le schimbăm.

Înţelepciune

Înțelepciunea este etalonul de aur. Reprezintă ceea ce facem cu cunoștințele noastre. Să presupunem că determinăm într-adevăr că în medie bărbații sunt plătiți mai mult decât femeile din țara noastră, chiar și pentru aceleași locuri de muncă. Ce facem cu această cunoaștere? Este in regulă? Vrem să încercăm să o remediem și, dacă da, cum? Cu legi? Educaţie? Subvenții guvernamentale? Revoluţie?

Să ne amintim definiția științei datelor de mai sus: derivarea cunoașterii din date. Aceasta implică faptul că nivelul „înțelepciunii” al ierarhiei se află cu adevărat în afara disciplinei și aparține în schimb altor discipline. Și acest lucru este parțial adevărat: într-un anumit sens, meseria savantului se oprește atunci când adevărurile profunde despre lumea reală sunt expuse și ilustrate, lăsând la latitudinea conduicerilor executive, a directorilor și a altor decidenți politici să acționeze în baza lor. Dar omul de știință a datelor este adesea implicat și aici, dintr-un motiv simplu: un factor de decizie vrea să știe ce este posibil să se întâmple dacă se implementează o anumită politică. Majoritatea intervențiilor non-banale vor avea rezultate greu de prezis în avans, precum și efecte secundare neintenționate. Un set de instrumente din setul de instrumente al omului de știință a datelor este acela de a face predicții principiale și calculate despre astfel de lucruri, precum și de a cuantifica nivelul de incertitudine din predicții. Uneori, se folosește tehnica de simulare – efectuarea de experimente pe societăți sau sisteme virtuale pentru a vedea efectele probabile agregate ale diferitelor intervenții. Este ca și cum ai avea o bilă de cristal cu dimensiuni ridicate, cu mai multe fațete, care permit să construim diverse scenarii până la concluziile lor logice.

Începând cu lumea reală și dură și ajutând la luarea unor decizii înțelepte cu privire la modul în care omenirea poate face față tuturor: aceasta este marea promisiune a întreprinderii de știință a datelor.

Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

© 2021 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1

Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$5,16 Selectează opțiunile
Promovarea afacerilor prin campanii de marketing online
Promovarea afacerilor prin campanii de marketing online

Marketing online poate să facă oricine. La un moment dat , firma ta are sute de opţiuni pentru desfăşurarea unei campanii de marketing. Totul depinde de alegerile făcute. Poţi să scrii articole pe blog, să atragi clienţi cu anunțuri cu … Citeşte mai mult

Nu a fost votat $3,99$9,91 Selectează opțiunile
Ghid Facebook pentru utilizatori
Ghid Facebook pentru utilizatori

Facebook este, de departe, cea mai cunoscută reţea socială, care permite utilizatorilor înregistraţi să îşi creeze profiluri proprii, să încarce şi să partajeze cu prietenii fotografii şi clipuri video, să trimită mesaje şi să păstreze legătura cu prietenii, familia şi … Citeşte mai mult

Nu a fost votat $1,99$3,39 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *