Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Știința datelor: scale de măsură categorice/nominale și ordinale în limbajul de programare Python

Știința datelor: scale de măsură categorice/nominale și ordinale în limbajul de programare Python

Operatii corecte pentru variabile categorice/nominale

Când o variabilă se află la o scală de măsură categorică, singurele lucruri pe care le puteți face sunt să comparați pentru egalitate/inegalitate, să numărați aparițiile de diferite valori și să calculați ceva numit modul valorilor.

Modul înseamnă pur și simplu valoarea care apare cel mai des. Este prima dintre „măsurile de tendință centrală” pe care le vom vedea: astfel de măsuri sunt o modalitate de a surprinde ceva despre valoarea „tipică” a unei variabile. Pentru variabilele categorice, singura caracteristică este „care apare cel mai des?” Dacă întrebăm o mulțime de oameni pentru culoarea lor preferată și primim răspunsurile „albastru”, „roșu”, „albastru”, „albastru” și „galben”, atunci modul este „albastru”. Este atât de simplu.

Pentru a clarifica lucrurile, aceste lucruri au sens să ceri o variabilă categorică:

  • „Culoarea lui preferată este aceeași cu culoarea ei preferată?”
  • „Câți oameni au „roșu” ca și culoare preferată?”
  • „Care este cea mai populară culoare preferată?”

în timp ce în aceste cazuri nu are sens:

  • „Este culoarea lui preferată mai mare decât culoarea ei preferată?” (??)
  • „Care este culoarea preferată a lui Caitlin minus Hannah?” (??)
  • „Care este culoarea favorită „medie” din acest set de date?” (??)

Ordinale

Un pas în sus în lanțul trofic este o variabilă ordinală, ceea ce înseamnă că diferitele sale valori posibile au o ordine semnificativă.

Luați în considerare education_level, o variabilă care conține cel mai înalt grad pe care l-a obținut un respondent la sondaj. Valorile sale pot fi oricare dintre următoarele : „HS”, „Associates”, „Bachelors”, „Masters” și „PhD”. În unele privințe, aceasta este ca fave_color: variabila trebuie să preia una dintr-un set de valori specifice, prescrise. Cu toate acestea, este destul de clar că o diplomă High School este mai aproape (mai asemănătoare cu) o diplomă Associates decât este de una Ph.D. Fiecare valoare succesivă reprezintă mai multă educație și, prin urmare, spre deosebire de variabilele categorice, are sens să le comparăm după ordonări mai-mare sau mai-mic.

Pe lângă mod, o altă măsură a tendinței centrale disponibile pentru variabilele ordinale este mediana. Mă gândesc la mediană ca fiind „cea mai mijlocie” valoare: dacă aliniați toate aparițiile la rând – în ordinea valorilor – este cea care se află exact în mijloc. Să presupunem că respondenții la sondaj oferă aceste răspunsuri: “Bachelors“, “HS“, “HS“, “Masters“, “Masters“, “Bachelors“, și “HS“. Pentru a calcula mediana, le aliniem pe toate în ordine:

“HS” “HS” “HS” “Bachelors” “Bachelors” “Masters” “Masters”

și găsim pe cea din mijloc, care este “Bachelors“. Deci „HS” este modul acestei variabile, iar „Bachelors” este mediana.

Alte exemple de variabile ordinale includ clasamentul în top 25 al unei echipe de baschet NCAA, categoria de impozitare a unui contribuabil și întrebări de sondaj care vă întreabă dacă sunteți „total în dezacord”, „nu sunteți de acord”, sunteți „neutru”, „de acord” sau „total de acord” cu o anumită afirmație.

Din nou, o listă de lucruri ce se face și ce nu trebuie făcut. Pentru variabilele ordinale, acestea sunt în regulă:

  • „Este nivelul lui de educație același cu nivelul ei de educație?”
  • „Câți oameni au răspuns „total dezacord” la această întrebare?”
  • „Baschetul UMW este clasat mai sus sau mai jos decât Messiah?”
  • „Care este categoria mediană de impozitare pentru acest grup de angajați?”

în timp ce acestea nu sunt:

  • „Care pare cea mai mare nepotrivire pe hârtie: Duke împotriva Kentucky sau Villanova împotriva Gonzaga?” (??)
  • „Care este nivelul de educație al lui Caitlin minus al lui Hannah?” (??)
  • „Care este categoria de impozitare „medie” pentru acest grup de angajați?”

Merită să comentați a doua listă, pentru că s-ar putea să fi crezut că unele dintre aceste elemente sunt complet rezonabile. De exemplu, să presupunem că, în cel mai recent sondaj AP, Duke se află în prezent pe locul 1, Kentucky pe locul 3, Villanova pe locul 4 și Gonzaga pe locul 23. S-ar putea crede că în mod clar confruntarea Villanova/Gonzaga este cea mai neregulată, deoarece există nouăsprezece locuri între ei, în timp ce Duke și Kentucky sunt separate de doar două locuri.

Dar nu neapărat. Știm că Duke este considerată mai puternică decât Kentucky, dar nu cu cât mai puternică. Aproape sigur nu este cazul ca echipele să fie exact distanțate uniform pe tot parcursul listei de la #1 la #25. Viața reală nu funcționează așa. În schimb, s-ar putea întâmpla ca Duke și Georgetown, echipele #1 și #2, să fie considerate de departe cele mai bune două echipe. Și poate că următoarele cinci sau chiar douăzeci de echipe de pe listă sunt considerate foarte apropiate, până la punctul în care experții nu sunt de acord cu privire la ordinea în care ar trebui să fie. Dacă acesta este cazul, atunci puternica Duke vs. (comparativ) slaba Kentucky poate fi o nepotrivire enormă, în timp ce Villanova și Gonzaga ar putea fi considerate apropiate ca valoare.

Concluzia este: deși valorile unei variabile ordinale sunt ordonate, nu există deloc informații despre distanța dintre ele. Vă spun din experiență personală că diferența dintre o diplomă de licență și o diplomă de master este neînsemnată în comparație cu cea dintre un master și un doctorat. (Puteți cere confirmare oricui a câștigat pe acesta din urmă.)

Acest lucru duce la al doilea element din lista nu-nu: scăderea a două valori ordinale. Tot ceea ce veți obține este „numărul de poziții din secvență prin care diferă”, ceea ce nu vă spune aproape nimic. Dacă le cer oamenilor să evalueze un film pe o scară de „PROST”, „OK”, „BUN” și „EXCELENT”, diferența dintre „PROST” și „BUN” va fi probabil mult mai mare decât cea dintre „OK” și „EXCELENT”. Acest lucru este adevărat chiar dacă „diferența” dintre ele pare exact aceeași: valoarea a două clasamente. Faptul este că oamenii nu interpretează acele patru adjective ca fiind exact la distanță egală și, prin urmare, este o eroare să le interpretăm rezultatele ca și cum ar fi făcut-o.

Ceea ce duce la al treilea și ultimul element: încercarea de a obține „media” (adunarea tuturor scorurilor și împărțirea la total). Este tentant să spunem: „Să tratăm „PROST” ca un 1, „OK” ca un 2, „BUN” ca un 3 și „EXCELENT” ca un 4. Apoi, putem doar să luăm media tuturor rezultatelor pentru obține ratingul mediu! Ce nu e în regulă?” Iată ce. Prin atribuirea acestor numere, ați adăugat informații false și, prin urmare, ați deformat sensul respondentului într-un lucru pe care nu și-a propus neapărat. Foarte probabil, ei nu s-au gândit că cele patru opțiuni sunt spațiate numeric egal și, prin urmare, această medie este destul de falsă. În schimb, luați mediana.

Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

© 2021 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1

Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Termenul megadate (Big Data, date masive) este adesea folosit în mod vag pentru a desemna paleta de algoritmi, tehnologii și sisteme utilizate pentru colectarea datelor de volum și varietate fără precedent și extragerea de valoare din acestea prin calculul masiv … Citeşte mai mult

Nu a fost votat $3,99$5,99 Selectează opțiunile
Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat $3,99$9,61 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.