Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Testarea regresiei în statistică

Testarea regresiei în statistică

Testarea regresiei: depinde y cu adevărat de x?

Înțelegerea faptului că există o distribuție a valorilor y (prețul apartamentului) la fiecare x (distanță) este cheia pentru înțelegerea modului în care rezultatele regresiei dintr-un eșantion pot fi utilizate pentru a testa ipoteza că există (sau nu există) o relație între x și y. Când emiteți ipoteza că y = f(x), ipotezați că panta dreptei (β în y = α + βx + ε) nu este egală cu zero. Dacă β ar fi egal cu zero, modificările în x nu ar provoca nicio modificare în y. Alegerea unui eșantion de apartamente și găsirea distanței fiecărui apartament față de centrul orașului, vă oferă un eșantion de (x, y). Găsirea ecuației dreptei care se potrivește cel mai bine eșantionului vă va oferi o interceptare a eșantionului, α, și o pantă a eșantionului, β. Aceste eșantioane statistice sunt estimatori imparțiali ai intersecției populației, α, și a pantei, β. Dacă se prelevează un alt eșantion de aceeași dimensiune, ar putea fi generată o altă ecuație a eșantionului. Dacă se prelevează mai multe probe, va fi generată o distribuție de eșantionare a probelor β, pantele liniilor de eșantionare. Statisticienii știu că această distribuție de eșantionare a lui b va fi normală cu o medie egală cu β, panta populației. Deoarece abaterea standard a acestei distribuții de eșantionare este rar cunoscută, statisticienii au dezvoltat o metodă de estimare a acesteia dintr-un singur eșantion. Cu acest sb estimat, poate fi calculată o statistică t pentru fiecare eșantion:

t = (b – β)/sb estimat = (b – β)/sb

unde n = dimensiunea eșantionului

m = numărul de variabile explicative (x).

b = panta eșantionului

β= panta populației

sb = abaterea standard estimată a lui b, adesea numită eroare standard

Aceste t urmează distribuția t din tabelele cu n–m-1 df.

Calculul sb este plictisitor și este aproape întotdeauna lăsat în seama unui computer, mai ales când există mai multe variabile explicative. Estimarea se bazează pe cât de mult variază punctele eșantionului față de linia de regresie. Dacă punctele din eșantion nu sunt foarte aproape de linia de regresie a eșantionului, pare rezonabil că punctele populației sunt, de asemenea, împrăștiate pe scară largă în jurul liniei de regresie a populației și diferite eșantioane ar putea produce cu ușurință linii cu pante destul de variate. Deși sunt implicați și alți factori, în general, atunci când punctele din eșantion sunt mai departe de linia de regresie, sb este mai mare. În loc să învățați cum să calculați sb, este mai util pentru dvs. să învățați cum să-l găsiți pe rezultatele de regresie pe care le obțineți din software-ul statistic. Este adesea numită eroare standard și există una pentru fiecare variabilă independentă. Imprimarea din Figura 8.3 este tipică.

Regresie simplă(Rezultat tipic al pachetului statistic pentru modelul de regresie liniară simplă)

Veți avea nevoie de aceste erori standard pentru a testa pentru a vedea dacă y depinde de x sau nu. Doriți să testați pentru a vedea dacă panta dreptei din populație, β, este egală cu zero sau nu. Dacă panta este egală cu zero, atunci modificările în x nu duc la nicio modificare în y. Formal, pentru fiecare variabilă independentă, veți avea un test al ipotezelor:

H0: β = 0

Ha: β ≠ 0

Dacă scorul t este mare (fie negativ fie pozitiv), atunci eșantionul b este departe de zero (β ipotezat), iar Ha ar trebui acceptat. Înlocuiți zero cu b în ecuația scorului t, iar dacă scorul t este mic, b este suficient de aproape de zero pentru a accepta Ha. Pentru a afla ce valoare t separă „aproape de zero” de „departe de zero”, alegeți un alfa, găsiți gradele de libertate și utilizați un tabel t din orice manual sau pur și simplu utilizați șablonul interactiv Excel prezentat în Figura 8.4.

Un element interactiv sau media a fost exclus din această versiune a textului. Îl puteți vizualiza online aici: https://www.telework.ro/wp-content/uploads/2022/03/Chapter-8_Fig-8.4_Tabel_t.xlsx

Șablon Excel interactiv pentru determinarea valorii t din tabelul t(Șablon Excel interactiv pentru determinarea valorii t din tabelul t)

Amintiți-vă să reduceți alfa la jumătate atunci când efectuați un test cu două cozi ca acesta. Gradele de libertate sunt egale cu n – m -1, unde n este dimensiunea eșantionului și m este numărul de variabile x independente. Există un test de ipoteză separat pentru fiecare variabilă independentă. Aceasta înseamnă că testați pentru a vedea dacă y este o funcție a fiecărui x separat. De asemenea, puteți testa pentru a vedea dacă β > 0 (sau β < 0) mai degrabă decât β ≠ 0 utilizând un test cu o singură coadă sau testați pentru a vedea dacă β este egal cu o anumită valoare prin înlocuirea acelei valori cu β atunci când se calculează scorul t al eșantionului.

Testarea regresiei: această ecuație ajută cu adevărat la predicție?

Pentru a testa pentru a vedea dacă ecuația de regresie ajută cu adevărat, vedeți cât de mult din eroarea care ar fi făcută folosind media tuturor y-urilor de prezis este eliminată folosind ecuația de regresie pentru a prezice. Testând pentru a vedea dacă regresia ajută la predicție, testați pentru a vedea dacă există o relație funcțională în populație.

Imaginați-vă că ați găsit prețul mediu al apartamentelor din eșantionul nostru și, pentru fiecare apartament, ați făcut o predicție simplă că prețul apartamentului va fi egal cu media eșantionului, y. Aceasta nu este o tehnică de predicție foarte sofisticată, dar rețineți că media eșantionului este un estimator imparțial al mediei populației, deci, în medie, veți avea dreptate. Pentru fiecare apartament, puteți calcula eroarea dvs. găsind diferența dintre predicția dvs. (media eșantionului, y) și prețul real al unui apartament.

Ca o modalitate alternativă de a prezice prețul, puteți solicita unui computer să găsească intersecția, α și panta, β, a dreptei de regresie a eșantionului. Acum, puteți face o altă predicție despre cât poate valora fiecare apartament din eșantion calculând:

ŷ = α + β(distanța)

Încă o dată, puteți găsi eroarea făcută pentru fiecare apartament găsind diferența dintre prețul apartamentelor prezis folosind ecuația de regresie ŷ și prețul observat, y. În cele din urmă, aflați cât de mult vă îmbunătățește predicția folosind regresia, găsind diferența dintre prețul prezis folosind media, y și prețul prezis folosind regresia, ŷ. Observați că măsurile acestor diferențe pot fi numere pozitive sau negative, dar acea eroare sau îmbunătățire implică o distanță pozitivă.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2022 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Introducere în Business Intelligence
Introducere în Business Intelligence

O resursă esențială pentru toți cei interesați de analiza datelor și de optimizarea proceselor de afaceri.

Nu a fost votat 13.67 lei24.54 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Nu rata oportunitatea de a rămâne competitiv într-o lume bazată pe date!

Nu a fost votat 18.24 lei27.38 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Introducere în inteligența artificială
Introducere în inteligența artificială

Pășește în era digitală pregătit să înțelegi și să aplici conceptele care schimbă lumea!

Nu a fost votat 13.67 lei23.95 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *