Acum este timpul să ne gândim la modul în care toate acestea se potrivesc împreună și să vedem cum sunt legate cele două abordări ale corelației. Începeți prin a presupune că aveți o populație de (x, y) care acoperă o gamă largă de valori y, dar numai o gamă restrânsă de valori x. Aceasta înseamnă că σy este mare în timp ce σx este mic. Să presupunem că reprezentați grafic punctele (x, y) și găsiți că toate se află într-o bandă îngustă întinsă liniar de la stânga jos la dreapta sus, astfel încât cele mai mari y să fie asociate cu cele mai mari x și cele mai mici y cu cele mai mici x. Aceasta înseamnă atât că covarianța este mare, cât și că o linie de regresie bună, care se apropie foarte mult de aproape toate punctele, este ușor de trasat. Coeficientul de corelație va fi, de asemenea, foarte mare (aproape de +1). Un exemplu va arăta de ce toate acestea se întâmplă împreună.
Imaginați-vă că ecuația pentru dreapta de regresie este y = 3 + 4x, μy = 31 și μx = 7, iar cele două puncte cele mai îndepărtate în dreapta sus, (10, 43) și (12, 51), se află exact pe linia de regresie. Aceste două puncte contribuie împreună cu Σ(x – μx)(y – μy) = (10 – 7)(43 – 31) + (12 – 7)(51 – 31) = 136 la numărătorul covarianței. Dacă am schimba x-urile și y-urile acestor două puncte, deplasându-le de pe dreapta de regresie, astfel încât să devină (10, 51) și (12, 43), μx, μy, σx și σy ar rămâne aceleași, dar aceste punctele ar contribui doar cu (10 – 7)(51 – 31) + (12 – 7)(43 – 31) = 120 la numărător. După cum puteți vedea, covarianța este cea mai mare, având în vedere distribuțiile x și y, atunci când punctele (x, y) se află pe o linie dreaptă. Având în vedere că corelația, r, este egală cu 1 atunci când covarianța este maximizată, puteți vedea că r = +1 când punctele se află exact pe o dreaptă (cu o pantă pozitivă). Cu cât punctele se află mai aproape de o linie dreaptă, cu atât covarianța este mai aproape de maximul acesteia și cu atât este mai mare corelația.
După cum arată exemplul din Figura, cu cât punctele sunt mai aproape de o linie dreaptă, cu atât este mai mare corelația. Regresia găsește linia dreaptă care se apropie cât mai mult de puncte, așa că nu ar trebui să fie surprinzător că corelația și regresia sunt legate. Unul dintre modalitățile prin care se poate măsura potrivirea unei linii de regresie este prin R2. Pentru cazul simplu cu două variabile, R2 este pur și simplu coeficientul de corelație r, pătrat.
(Graficul populației inițiale)
Corelația nu ne spune nimic despre cât de abruptă sau plată este linia de regresie, deși ne spune dacă panta este pozitivă sau negativă. Dacă am lua populația inițială prezentată în Figura 8.12 și am întinde-o atât la stânga, cât și la dreapta pe orizontală, astfel încât valoarea x a fiecărui punct să se schimbe, dar valoarea sa y aă rămână aceeași, σx ar crește în timp ce σy ar rămâne aceeași. Dacă ați trage în mod egal la dreapta și la stânga, atât μx, cât și μy ar rămâne la fel. Covarianța ar crește cu siguranță, deoarece (x–μx) care merge cu fiecare punct ar fi absolut mai mare, în timp ce (y–μy) ar rămâne la fel. Ecuația dreptei de regresie s-ar modifica, panta b devenind mai mică, dar coeficientul de corelație ar fi același deoarece punctele ar fi la fel de aproape de dreapta de regresie ca înainte. Încă o dată, observați că corelația vă spune cât de bine se potrivește linia punctelor, dar nu vă spune nimic despre pantă decât dacă este pozitivă sau negativă. Dacă punctele sunt întinse pe orizontală, panta se modifică, dar corelația nu. De asemenea, observați că, deși covarianța crește, corelația nu crește deoarece σx crește, ceea ce face ca numitorul din ecuația pentru găsirea lui r să crească la fel de mult ca și covarianța, numărătorul.
Linia de regresie și abordările de covarianță pentru înțelegerea corelației sunt în mod evident legate. Dacă punctele din populație se află foarte aproape de dreapta de regresie, covarianța va fi mare în valoare absolută, deoarece x-urile care sunt departe de media lor vor fi asociate cu y-urile care sunt departe de ale lor. O pantă de regresie pozitivă înseamnă că x și y cresc și scad împreună, ceea ce înseamnă, de asemenea, că covarianța va fi pozitivă. O pantă de regresie negativă înseamnă că x și y se mișcă în direcții opuse, ceea ce înseamnă o covarianță negativă.
Rezumat
Regresia liniară simplă permite cercetătorilor să estimeze parametrii — Intersecția și pantele — ai ecuațiilor liniare care conectează două sau mai multe variabile. Cunoașterea că o variabilă dependentă este legată funcțional de una sau mai multe variabile independente sau explicative și având o estimare a parametrilor acelei funcție, îmbunătățește considerabil capacitatea unui cercetător de a prezice valorile pe care variabila dependentă le va lua în multe condiții. Capacitatea de a estima efectul pe care o variabilă independentă îl are asupra valorii variabilei dependente, separat de modificările altor variabile independente, poate fi un ajutor puternic în luarea deciziilor și în proiectarea politicilor. Capacitatea de a testa existența efectelor individuale ale unui număr de variabile independente ajută factorii de decizie, cercetătorii și factorii de decizie să identifice care variabile sunt cele mai importante. Regresia este un instrument statistic foarte puternic din multe puncte de vedere.
Ideea din spatele regresiei este simplă: este pur și simplu ecuația dreptei care se apropie cât mai mult de cât mai multe puncte. Cu toate acestea, matematica regresiei nu este atât de simplă. În loc să încerce să învețe matematica, cei mai mulți cercetători folosesc computerele pentru a găsi ecuații de regresie, așa că aici am pus accentul pe citirea tipăririlor de computer, mai degrabă decât pe matematica regresiei.
Au fost abordate și alte două subiecte, care sunt legate între ele și de regresie: corelația și covarianța.
Ceva la fel de puternic precum regresia liniară trebuie să aibă limitări și probleme. Există un întreg subiect, econometria, care se ocupă de identificarea și depășirea limitărilor și problemelor regresiei.
Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0
© 2022 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu
Lasă un răspuns