Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Interpretarea datelor în știința datelor: Variabile

Interpretarea datelor în știința datelor: Variabile

Ați văzut, fără îndoială, nenumărate studii care pretind că dezvăluie adevăruri importante despre lume, cum ar fi că fumatul poate produce cancer pulmonar, emisiile de gaze cu efect de seră pot provoca temperaturi globale mai ridicate sau orgasmele pot vindeca sughițul. De cele mai multe ori, oamenii de știință încearcă să găsească un factor cauzal care leagă o variabilă de alta: ei suspectează că valoarea unei variabile A (numită adesea variabilă independentă, sau „i.v.” pe scurt) este un motiv sau o cauză a unei anumite valori într-o altă variabilă B (variabila dependentă sau „d.v.”).

Doar pentru a evita neînțelegerile, atunci când pretindem că A cauzează B, nu ne referim în mod normal că o cauzează exclusiv sau chiar că o provoacă în mod sigur. Există o mulțime de factori care contribuie la cancerul pulmonar în afară de fumat, până la urmă; și există mii de fumători care  nu dezvoltă niciodată cancer. Vrem pur și simplu să spunem că A este un factor care contribuie la B și că valoarea variabilei A exercită o oarecare influență, dar nu totală, asupra valorii variabilei B.

Este important că folosim cuvântul variabilă aici într-un mod diferit, dar înrudit decât l-am folosit în capitolele 3, 8 și 9. Așa cum am făcut în capitolul 6, folosim „variabilă” aici ca însemnând un aspect specific al obiectelor unui studiu care poate diferi sau „varia”. Obiectele din studiul nostru (adesea oameni, dar uneori companii, organizații, medii, națiuni etc.) au fiecare o valoare pentru variabilă. Astfel, dacă vă gândiți la o variabilă „venit pe cap de locuitor”, s-ar putea să vă gândiți la o gamă întreagă valori flotante, fiecare dintre acestea reprezentand venitul mediu pe rezident al unei singure națiuni.

Variabilele în cauză pot fi din oricare dintre scalele de măsură din capitolul 6. Luați exemplul fumatului, având ca obiect de studiu pacienții. Am putea spune că variabila independentă A este categorică, cu valorile FUMĂTOR și NEFUMĂTOR. Variabila dependentă B este de asemenea categorică: CANCER și NU-CANCER. Întrebarea cheie este: persoanele cu A = FUMĂTOR au și B = CANCER mai des (un procent mai mare din timp) decât au persoanele cu A = NEFUMĂTOR?

În exemplul emisiilor de gaze cu efect de seră, obiectele noastre de studiu ar putea fi ani. Variabilele noastre sunt ambele numerice, cu A (o măsură a emisiilor anuale de gaze cu efect de seră, măsurată în gigatone de CO2) pe scara raportului, și B (creșterea/scăderea temperaturii medii la nivel mondial) pe o scară de interval. Aici, întrebarea ar fi: anii în care A este relativ mare au de obicei și B relativ mare? Altfel spus: anii în care oamenii au eliberat mai mult gaz în atmosferă tind să corespundă cu anii în care temperatura globală a crescut?

Și, desigur, am putea avea o variabilă categorică și una numerică. Poate că obiectele noastre de studiu sunt adulții americani și, în timp ce variabila noastră categorială A are valori DEMOCRAT, REPUBLICAN, ALȚI și INDEPENDENT, numărul nostru B este venitul anual. Întrebarea noastră ar fi: adepții unui partid politic tind să fie mai bogați decât cei ai altuia?

Sau, invers, variabila independentă A ar putea fi numerică, în timp ce variabila dependentă B este categorială. Obiectele noastre de studiu ar putea fi absolvenții de liceu care aplică la UMW. Fie A numărul de colegii diferite la care a aplicat un student și B o variabilă categorială cu valorile ADMIS-TO-UMW și NE-ADMIS-TO-UMW.

Întrebarea de interes este aici: studenții care aplică la mai multe colegii tind să intre mai des la UMW?

Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2024 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1

Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat 2.835.08 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat 4.7211.35 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat 3.787.56 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *