Intervale
Următoarea noastră scară de măsură este scara intervalului, care îndeplinește ceea ce lipsea cu variabilele ordinale. O variabilă de interval are diferențe semnificative și de încredere între valori, care pot fi calculate și analizate.
Spre deosebire de cele două scale anterioare, variabilele de interval sunt întotdeauna numerice prin natură. Nu puteți scădea două cuvinte unul de la celălalt, dar puteți face acest lucru cu numere și, spre deosebire de exemplele noastre de număr uniform și de clasare cu cercuri NCAA, această scădere este o operațiune semnificativă.
Un exemplu de variabilă de interval ar putea fi longitudinea (sau latitudinea) unui oraș. Nu numai că ne putem întreba dacă două orașe au aceeași longitudine (ca și în cazul categoriei) și dacă unul este la est sau la vest de altul (ca și la ordinal), acum putem întreba cât de departe la est. Scădeți o longitudine de la cealaltă și bum. Avem un grad de diferență sigur.
Acest lucru ne permite să punem întrebări precum „Dallas și Fort Worth sunt mai îndepărtate decât Minneapolis și St. Paul?” sau „este variația temperaturii între zi și noapte mai mare în Colorado decât în Virginia?” (Sugestie: da.) Rețineți că în mod legal nu am putea pune astfel de întrebări unei variabile ordinale, deoarece nu a existat nicio modalitate de a ști cu adevărat cât de mare este diferența dintre „BUN” și „EXCELENT”, spre deosebire de cea dintre „BINIȘOR. ” și „BUN”.
Un alt exemplu de variabilă pe scara de intervale, pe lângă temperatura menționată mai sus, este anul în care are loc evenimentul. Putem spune, de exemplu, că aproape două treimi din istoria SUA a avut loc după Războiul Civil (2021 -1865 = 156 de ani, față de 1861 -1776 = 85 de ani).
Măsura prin excelență a tendinței centrale pentru scara intervalului este media aritmetică. Atât mediana, cât și modul sunt încă permise și uneori sunt destul de utile. Dar de multe ori ne vom întoarce la chestia de adunare și împărțire la numărul de elemente pe care l-ai învățat în școală. În acest caz, are sens, deoarece valorile sunt la poziții fixe, semnificative, numerice și, prin urmare, adunarea lor este în regulă.
Iată lista noastră de exemple bune (pentru variabilele de scară de interval):
- „Temperatura ridicată de azi a fost aceeași cu cea de ieri?”
- „S-a născut Beethoven înainte sau după Napoleon?”
- „Câte orașe sunt la 40° latitudine?”
- „Care este anul mediu de naștere pentru actualii senatori ai SUA?”
- „Care zonă se confruntă cu mai multă încălzire globală (diferență de temperatură) – Groenlanda sau Franța?”
- „Care este latitudinea Londrei minus Boston? Cât de mult mai la nord este?”
- „Care a fost temperatura medie ridicată în Fredericksburg în septembrie?”
Și exemple rele:
- „Care orașe sunt cu cel puțin 20% mai la est decât Chicago?” (??)
- „Când a fost prima zi de toamnă, care a fost pe jumătate mai caldă decât a fost pe 4 iulie?” (??)
- „S-a născut Lincoln cu 5% mai târziu decât Washington?” (??)
Să luăm în considerare această listă cu probleme. Cu o variabilă de scară de intervale, putem întreba aproape orice dorim despre ea. Aproape. Singura problemă sunt întrebările care au expresii precum „de două ori mai mult” sau „10% mai puțin decât”. Acestea, nu le putem face. Motivul este că o variabilă de scară de intervale nu are un punct zero semnificativ.
Într-o scară de intervale, valorile au distanțe relative unele de altele, dar nu diferențe absolute față de un punct de referință fix. Luați în considerare anii. A spune că Cubs au câștigat în sfârșit World Series la 146 de ani după nașterea francizei lor este semnificativ: diferența dintre 1870 și 2016 poate fi măsurată. Dar dacă am spune „au câștigat World Series cu 7,8% mai târziu decât s-a născut franciza”? Ar putea o astfel de propoziție să spună ceva util?
Răspunsul este nu și iată de ce. „Punctul zero” al sistemului nostru de calendar este arbitrar. Prin asta vreau să spun că anul pe care l-am putea considera „anul zero” nu are nimic de-a face cu Cubs sau baseball sau America sau orice altceva: a existat o presupunere cu privire la anul nașterii lui Isus Hristos, și a fost una greșită. (3)
Am fi putut, desigur, să alegem să măsurăm timpul relativ la orice alt punct, cum ar fi nașterea propriei noastre națiuni, întemeierea Romei, înființarea francizei Cubs sau orice altceva. Dacă am fi făcut asta, toate diferențele relative dintre ani ar fi fost aceleași: ar fi fost tot 85 de ani între Declarația de Independență și Războiul Civil, Barack Obama ar fi fost președinte tot timp de 8 ani, iar tu ai avea încă aceeași vârstă. Dar toate calculele absolute care se referă implicit la punctul zero – cum ar fi „Cu cât la sută mai târziu au câștigat Cubs seria decât a început franciza lor?” ar deveni brusc radical diferit. Dacă am măsurat anii în raport cu 1776, atunci victoria lui Cubs ar fi fost „cu 155,3% mai târziu” decât originea lor, în loc de „7,8% mai târziu!” Asta trădează faptul că acesta este un calcul total lipsit de sens.
Același lucru cu longitudinea. În timp ce latitudinea are în mod plauzibil un punct zero semnificativ – ecuatorul – și, prin urmare, poate că „de două ori mai mult spre nord” are o anumită semnificație („de două ori mai departe de centrul planetei”), longitudinea în mod clar nu o are. A spune că un oraș este „de două ori mai la răsărit” decât altul nu are niciun sens. Asta pentru că punctul zero pentru longitudine este arbitrar: este stabilit la Greenwich, Anglia, dintre toate longitudinile. În mod clar, doar diferențele relative între longitudine au vreo semnificație.
Și același lucru cu temperatura. Dacă maxima de ieri a fost de 40° F, iar cea de azi este de 80° F, este tentant să spui „vah! Azi este de două ori mai cald!” Pentru a vedea că este o farsă, totuși, luați în considerare ce s-ar întâmpla dacă ne-am schimba pentru a folosi sistemul metric așa cum o face restul lumii civilizate și am măsura temperatura în Celsius. Acum, dacă am face asta, în mod clar nu am începe să experimentăm valuri de căldură sau perioade de frig ca urmare! Hei, doar ne schimbăm unitățile, nu influențăm atmosfera. Dar realizați că în Celsius, ziua de ieri de 40 ° F ar deveni 4,4 ° C, iar 80 ° F de azi ar fi 26,7 ° C. Așa că acum, schimbându-ne unitățile, ar trebui să spunem „oh, doamne, cred că de fapt este de șase ori mai cald astăzi!” Acesta este motivul pentru care înmulțirea și împărțirea cu variabile de scară de interval duce la nebunie.
Rapoarte
Ceea ce ne duce la ultima dintre cele patru scale: scara rapoartelor. Într-un fel, aceasta este cel mai ușor de înțeles, din cauza că toate întrebărilor matematice pe care am dori să le punem, le putem pune. Înmulțiri, împărțiri, afirmații absolute precum „cu 25% mai mare decât”.
Salariul are un punct zero absolut semnificativ: și anume, un muncitor șomer (sau voluntar) care câștigă zero lei. Deoarece avem acel standard non-arbitrar, este perfect logic să spunem lucruri precum „el face de două ori mai mult decât ea.
Înălțimea unei persoane are și ea un punct zero semnificativ: solul. Dacă Ion Ionescu are o înălțime de 2 m, iar Costel Costescu are o înălțime de 1m, are tot sensul să spui „Ion este de două ori mai înalt decât Costel”.
Ca și în cazul variabilelor de scară de intervale, folosim adesea media aritmetică drept măsură a tendinței centrale. (4)
În final, ideea este că Python nu vă va împiedica să faceți oricare dintre lucrurile stupide de mai sus – dacă avem o variabilă de scară ordinală, de exemplu, putem scădea valori una de la alta până când obosim, fără a recunoaște că rezultatele pe care le producem sunt aiureli. Totul depinde de noi să fim cetățeni responsabili de date și să folosim numai operațiuni care dau rezultate semnificative.
- (3) Descoperirile istorice ulterioare au demonstrat că Irod cel Mare a murit în ceea ce numim acum 4 î.e.n. Dacă ai mers la școala duminicală, s-ar putea să-ți amintești că într-un acces de gelozie, regele Irod cel Mare a ordonat să fie uciși toți băieții din Betleem (de doi ani sau mai mici). (Vezi Matei 2:13-18.) El a ales „dedoi ani sau mai mici” ca limită, deoarece scopul său era să-l omoare pe Isus, care avea aproximativ doi ani la acea vreme. Prin urmare, Iisus s-a născut cel mai probabil în anul pe care noi l-am etichetat (în mod incorect, se pare, ca „6 î.e.n.
- (4) În mod interesant, există de fapt două tipuri diferite de medii, dintre care una, numită „medie geometrică” este aplicabilă doar pe scara de date a rapoartelor. Implică înmulțirea și extragerea rădăcinii în loc de adunare și împărțire, și este o operațiune utilă în anumite contexte de nișă.
Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2024 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1
Lasă un răspuns