Să vedem cum să interpretăm corect datele cu care lucrăm; în special, cum să tragem concluzii corecte din ceea ce am colectat.
Fără îndoială, ați văzut nenumărate studii care pretind că dezvăluie adevăruri importante despre lume, cum ar fi că fumatul poate duce la cancer pulmonar, emisiile de gaze cu efect de seră pot provoca temperaturi globale mai ridicate sau orgasmele pot vindeca sughițul. De cele mai multe ori, oamenii de știință încearcă să găsească un factor cauzal care leagă o variabilă de alta: ei suspectează că valoarea unei variabile A (numită adesea variabilă independentă sau „v.i.” pe scurt) este un motiv sau o cauză a unei anumite valori într-o altă variabilă B (variabila dependentă sau „v.d.”).
Doar pentru a evita neînțelegerile, atunci când pretindem că A cauzează B, nu ne referim în mod normal la faptul că o cauzează exclusiv sau chiar că o provoacă în mod sigur. În afară de fumat, există o mulțime de factori care contribuie la cancerul pulmonar; și mii de fumători nu dezvoltă niciodată cancer. Vrem pur și simplu să spunem că A este un factor care contribuie la B și că valoarea variabilei A exercită o anumită influență, dar nu totală, asupra valorii variabilei B.
Important este să folosim cuvântul variabilă aici în mod normal ca un aspect măsurabil al fiecărui obiect din studiul nostru. S-ar putea să recrutăm participanți la un experiment de cercetare și să le înregistrăm rasa, greutatea și cerealele preferate pentru micul dejun. Acestea ar fi cele trei variabile ale noastre. Fiecare dintre cele trei va constitui multe valori, deoarece grupul nostru de participanți va avea multe rase, greutăți și cereale. În termeni de programare, acestea vor deveni în cele din urmă tipuri de date agregate de un fel. Folosim „variabilă” aici pentru a desemna un aspect specific al obiectelor unui studiu care poate diferi sau „varia”. Obiectele din studiul nostru (adesea oameni, dar uneori companii, organizații, medii, națiuni etc.) fiecare au fiecare o valoare pentru variabilă. Astfel, dacă vă gândiți la o variabilă „venit pe cap de locuitor”, s-ar putea să vă gândiți la o gamă întreagă, fiecare dintre acestea reprezentand venitul mediu pe rezident al unei singure națiuni.
Variabilele în cauză pot fi din oricare dintre scalele de măsură din capitolul 6. Luați exemplul fumatului, cu pacienții ca obiect de studiu. Am putea spune că variabila independentă A este categorică, cu valorile FUMĂTOR și NEFUMĂTOR. Variabila dependentă B este de asemenea categorică: CANCER și NON-CANCER. Întrebarea cheie este: persoanele cu A = FUMĂTOR au și B = CANCER mai des (un procent mai mare din timp) decât au persoanele cu A = NEFUMĂTOR ?
În exemplul emisiilor de gaze cu efect de seră, obiectele noastre de studiu ar putea fi ani. Variabilele noastre sunt ambele numerice, cu A (o măsură a emisiilor anuale de gaze cu efect de seră, măsurată în gigatone CO2) pe scara raportului și B (creștere/scădere medie a temperaturii la nivel mondial) pe o scară de interval. Aici, întrebarea ar fi: anii în care A este relativ ridicat au, de obicei, și B relativ mai mare? Cu alte cuvinte: anii în care pământenii au eliberat mai mult gaz în atmosferă tind să corespundă cu anii în care temperatura globală a crescut?
Și, desigur, am putea avea o variabilă categorială și una numerică. Poate că obiectele noastre de studiu sunt adulții americani și, în timp ce variabila noastră categorială A are valori DEMOCRAT, REPUBLICAN, ALTUL și INDEPENDENT, numărul nostru B este venitul anual. Întrebarea noastră ar fi: adepții unui partid politic tind să fie mai bogați decât cei ai altuia?
Sau, invers, variabila independentă A ar putea fi numerică, în timp ce variabila dependentă B este categorială. Obiectele noastre de studiu ar putea fi absolvenții de liceu care aplică la Universitatea X. Fie A numărul de colegii diferite la care a aplicat un student și B o variabilă categorică cu valori ADMIS și NEADMIS.
Întrebarea de interes este aici: studenții care aplică la mai multe colegii tind să intre mai des la Universitatea X?
Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2021 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1
Lasă un răspuns