Ați văzut, fără îndoială, nenumărate studii care pretind că dezvăluie adevăruri importante despre lume, cum ar fi că fumatul poate produce cancer pulmonar, emisiile de gaze cu efect de seră pot provoca temperaturi globale mai ridicate sau orgasmele pot vindeca sughițul. De cele mai multe ori, oamenii de știință încearcă să găsească un factor cauzal care leagă o variabilă de alta: ei suspectează că valoarea unei variabile A (numită adesea variabilă independentă, sau „i.v.” pe scurt) este un motiv sau o cauză a unei anumite valori într-o altă variabilă B (variabila dependentă sau „d.v.”).
Doar pentru a evita neînțelegerile, atunci când pretindem că A cauzează B, nu ne referim în mod normal că o cauzează exclusiv sau chiar că o provoacă în mod sigur. Există o mulțime de factori care contribuie la cancerul pulmonar în afară de fumat, până la urmă; și există mii de fumători care nu dezvoltă niciodată cancer. Vrem pur și simplu să spunem că A este un factor care contribuie la B și că valoarea variabilei A exercită o oarecare influență, dar nu totală, asupra valorii variabilei B.
Este important că folosim cuvântul variabilă aici într-un mod diferit, dar înrudit decât l-am folosit în capitolele 3, 8 și 9. Așa cum am făcut în capitolul 6, folosim „variabilă” aici ca însemnând un aspect specific al obiectelor unui studiu care poate diferi sau „varia”. Obiectele din studiul nostru (adesea oameni, dar uneori companii, organizații, medii, națiuni etc.) au fiecare o valoare pentru variabilă. Astfel, dacă vă gândiți la o variabilă „venit pe cap de locuitor”, s-ar putea să vă gândiți la o gamă întreagă valori flotante, fiecare dintre acestea reprezentand venitul mediu pe rezident al unei singure națiuni.
Variabilele în cauză pot fi din oricare dintre scalele de măsură din capitolul 6. Luați exemplul fumatului, având ca obiect de studiu pacienții. Am putea spune că variabila independentă A este categorică, cu valorile FUMĂTOR și NEFUMĂTOR. Variabila dependentă B este de asemenea categorică: CANCER și NU-CANCER. Întrebarea cheie este: persoanele cu A = FUMĂTOR au și B = CANCER mai des (un procent mai mare din timp) decât au persoanele cu A = NEFUMĂTOR?
În exemplul emisiilor de gaze cu efect de seră, obiectele noastre de studiu ar putea fi ani. Variabilele noastre sunt ambele numerice, cu A (o măsură a emisiilor anuale de gaze cu efect de seră, măsurată în gigatone de CO2) pe scara raportului, și B (creșterea/scăderea temperaturii medii la nivel mondial) pe o scară de interval. Aici, întrebarea ar fi: anii în care A este relativ mare au de obicei și B relativ mare? Altfel spus: anii în care oamenii au eliberat mai mult gaz în atmosferă tind să corespundă cu anii în care temperatura globală a crescut?
Și, desigur, am putea avea o variabilă categorică și una numerică. Poate că obiectele noastre de studiu sunt adulții americani și, în timp ce variabila noastră categorială A are valori DEMOCRAT, REPUBLICAN, ALȚI și INDEPENDENT, numărul nostru B este venitul anual. Întrebarea noastră ar fi: adepții unui partid politic tind să fie mai bogați decât cei ai altuia?
Sau, invers, variabila independentă A ar putea fi numerică, în timp ce variabila dependentă B este categorială. Obiectele noastre de studiu ar putea fi absolvenții de liceu care aplică la UMW. Fie A numărul de colegii diferite la care a aplicat un student și B o variabilă categorială cu valorile ADMIS-TO-UMW și NE-ADMIS-TO-UMW.
Întrebarea de interes este aici: studenții care aplică la mai multe colegii tind să intre mai des la UMW?
Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2024 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1
Lasă un răspuns