Histogramele sunt un instrument excelent pentru a vedea distribuția unui eșantion numeric, univariat. După cum vom vedea în acest capitol, totuși, au unele deficiențe. O problemă este că un set de date nu determină în mod unic o histogramă: în schimb, trebuie să specificăm parametri precum dimensiunea bin (divizarea intervalului întreg în mai multe intervale) și „alinierea” binelor (adică a intervalelor, unde au loc exact întreruperile), iar afișajul rezultat este colorat. (fără joc de cuvinte) prin acele alegeri.
Luați în considerare acest set de date simplu (1):
2.1, 2.3, 1.9, 1.8, 1.4, 2.6, 1.7, 2.2
Să presupunem că alegem o lățime de bin de 1. Dacă am poziționa marginea din stânga a fiecărui bin la 0, 1, 2, 3, …, am obține histograma din partea stângă a figurii 4.1.
data = np.array([2.1, 2.3, 1.9, 1.8, 1.4, 2.6, 1.7, 2.2])
plt.hist(data, bins=[0,1,2,3,4])
Interpretarea noastră ar fi probabil: „se pare că valorile apar destul de uniform în intervalul 1-3”.
Dar dacă ne-am deplasat alinierea bin pentru a fi pe „jumătăți” (0,5, 1,5, 2,5, …), obținem această histogramă în partea dreaptă a figurii 4.1.
plt.hist(data, bins=[-.5,0.5,1.5,2.5,3.5,4.5])
Acum putem fi susceptibili să ne gândim: „pare o distribuție cu vârf abrupt, cu cele mai multe valori aproape de valoarea centrală de 2”.
Cu toate acestea, datele sunt aceleași! :-O
Figura 4.1: Două histograme ale aceluiași set de date!
Date vs. proces
Acum s-ar putea să respingi această idiosincrazie ca fiind doar o ciudățenie singulară, care apare doar atunci când datele sunt aranjate cu grijă, astfel încât să o declanșeze. Și există ceva adevăr în asta. Dar adevărata problemă cu histogramele este mai mare și mai conceptuală: are de-a face cu ceea ce încercăm cu adevărat să vizualizăm în primul rând.
În știința datelor, în mod paradoxal, foarte des, de fapt, nu ne pasă atât de mult de date cât ne pasă de procesul de bază care a generat datele. Acest „proces de generare a datelor” (DGP) – fie că este o greșeală geografică, un autor misterios, o echipă sportivă sau o economie – lasă în urmă dovezi ale comportamentului său (tremurături seismice, afirmații, statistici sportive, niveluri de venit) pe care le-am colectat conștiincioși și apoi le-am analizat. Scopul este (aproape) întotdeauna de a trage concluzii despre modul în care funcționează acel DGP, nu de a afla despre bucățile individuale în sine.
Până în prezent, când ne uităm la o histogramă a (să zicem) notelor școlare a unui eșantion de studenți, nu suntem de fapt interesați de ceea ce sunt exact acele note școlare eșantionate, oricât de ciudat ar suna. În schimb, suntem interesați de ceea ce ne spun despre notele școlare ale studenților în general. Dorim să tragem concluzii despre populație privind eșantionul. (2)
Să presupunem că am stat la popasul din campus și le-am cerut voluntarilor nebănuiți să ne lase să măsurăm cât de înalți erau. Histograma rezultatului ar putea arăta ca în Figura 4.2.
Figura 4.2: O histogramă a unui eșantion de înălțimi ale studenților.
Histograma folosește „1 inch” ca dimensiune a recipientului. Inspectând-o, putem vedea că cea mai scundă persoană din eșantionul nostru avea 62 de inci (sau 5 picioare 2 inci), cea mai înaltă era de 78 de inchi (6 picioare 6 inci) și cea mai comună înălțime a fost de 65 de inci (5 picioare 5 inci), printre altele.
Dar luați în considerare acest lucru. Eșantionul nostru a avut cinci studenți care aveau 5 picioare 5 inci, trei care aveau 5 picioare 7 inci, dar niciunul care avea 5 picioare 6 inci. Acest lucru este perfect posibil cu eșantioane, desigur – obțineți doar un set aleatoriu de studenți și probabil că vor exista mici ciudățenii ca aceasta. Dar pe ce bază îl etichetăm drept „ciudățenie?”
Dacă sunteți ca mine, înclinația dvs. este să spuneți: „da, bine, din acest eșantion, ni se întâmplă să ne lipsească vreo persoană de 5-foot-6, dar nu se pare că vom trage concluzii importante din acest fapt. Nu vom deduce că „studenții nu au aproape niciodată 5-foot-6 – sunt aproape întotdeauna fie puțin mai scunzi, fie puțin mai înalți decât atât.” O astfel de concluzie ar fi ridicolă!
Simpatizez si sunt de acord cu asta. Dar într-adevăr, știm acest lucru doar pentru că deținem o cunoaștere de bază a problemei. Cu toții am văzut o mulțime de oameni de diferite înălțimi și știm ceva despre modul în care genetica și nutriția și alți factori joacă în înălțimea unei persoane și pur și simplu strigă „greșit!” să se creadă că există o „înălțime lipsă” magică acolo, chiar în mijlocul unor înălțimi de altfel destul de comune care, dintr-un anumit motiv, ar fi practic de neatins.
Gândiți-vă, totuși: dacă am studia un fenomen necunoscut, despre care nu am avut experiență anterioară, ar fi destul de îndrăzneț pentru noi să deducem existența multor „66” pe care nu le-am observat niciodată, pur și simplu pe motiv că au fost o mulțime de 65 și 67 în eșantionul nostru. Ideea mea este să nu renunți la cunoașterea ta de bază: dimpotrivă, ar trebui să o folosești bine! Ideea mea este doar să atrag atenția asupra justificării pe care o folosim pentru a deduce existența unei mulțimi de oameni de 66 de inci (5-picioare-6 inci) în populație, chiar dacă nu am observat niciodată vreunul.
Deci punctul meu de vedere principal este acesta. Deși ne uităm la o histogramă ca aceasta pentru a vedea „întinderea pământului” – pentru a vedea ce valori ale variabilei numerice sunt mai frecvente și care sunt mai puțin frecvente – dacă suntem deștepți nu putem să nu recunoaștem două aspecte diferite ale figurii. Unele dintre caracteristicile histogramei sunt generalizabile și indică cum arată probabil populația: am înțeles (în mod corect) că mulți sau majoritatea studenților aveau între 60 și 80 de inci înălțime, majoritatea în intervalul 65 inci până la 75 inci. Dar unele dintre caracteristicile sale le-am caracteriza (corect) ca simple artefacte ale acestui eșantion anume, cum ar fi faptul ciudat că se întâmplă să avem câțiva de 65-inci și 67-inci, dar nu 66-inci.
Ceea ce ne-am dori cu adevărat este un grafic care ascunde (sau „netezește”) al doilea tip de lucruri, în timp ce dezvăluie primul tip de lucruri. Cu alte cuvinte, ne-am dori o diagramă care să ne arate caracteristicile datelor care sunt probabil generalizabile, ascunzând în același timp colțurile și lipsurile individuale. Un astfel de grafic apare chiar în secțiunea 4.2 de mai jos.
Doar pentru a termina acest aspect, voi enumera încă două probleme cu histogramele:
- Pierd în mod inerent informații, deoarece, prin definiție, punctele de date cu valori specifice și precise sunt aruncate în „cel mai apropiat coș”.
- Nu tratează foarte bine valorile aberante. O singură cale aberantă în afara intervalului normal ne obligă fie (a) să includem o mulțime de celule goale în mijloc, fie (b) să alegem o lățime nerezonabil de largă a recipientului care nu funcționează pentru majoritatea punctelor.
Referințe
- (1) Din Janert, P. K. (2010). Data Analysis with Open Source Tools: A Hands-On Guide for Programmers and Data Scientists. O’Reilly Media.
- (2) Dacă nu ați mai întâlnit aceste cuvinte înainte, „populația” este întregul set de obiecte relevante de studiu care se află acolo în lume, pentru care majoritatea nu vom obține niciodată o măsurare directă deoarece sunt prea numeroase. „Eșantionul” este subgrupul mic al populației pentru care am obținut o măsurare. Un exemplu clasic este sondajele politice: nu ne interesează atât de mult cum vor vota cei 2.000 de oameni din sondajul nostru telefonic; ceea ce ne pasă este modul în care țara în ansamblu va vota pentru președinte. Deci presupunem că eșantionul reflectă populația și motivăm în consecință folosind teste statistice ca ghid.
Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 2: Introduction to Data Science, v. 1.1. Copyright © 2020 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2021 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 2
Lasă un răspuns