Dacă utilizați media eșantionului pentru a estima valoarea prețului fiecărui apartament, greșeala dvs. este (y – y) pentru fiecare apartament. Punerea la pătrat a fiecărei erori astfel încât grijile legate de semne să fie depășite și apoi adăugarea erorilor la pătrat vă oferă o măsură a erorii totale pe care o faceți dacă doriți să preziceți y. Greșeala dvs. totală este Σ(y – y)2. Greșeala totală pe care o faceți folosind modelul de regresie ar fi Σ(y – ŷ)2. Diferența dintre erori, o măsură brută a cât de mult s-a îmbunătățit predicția dvs., este Σ(ŷ – y)2. Pentru a face această măsură brută a îmbunătățirii semnificativă, trebuie să o comparați cu una dintre cele două măsuri ale erorii totale. Aceasta înseamnă că există două măsuri pentru „cât de bună” este ecuația dvs. de regresie. Una compară îmbunătățirea cu erorile încă făcute cu regresia. Ceralaltă compară îmbunătățirea cu erorile care ar fi făcute dacă media ar fi folosită pentru a prezice. Prima se numește scor F deoarece distribuția de eșantionare a acestor măsuri urmează distribuția F. A doua se numește R2 sau coeficientul de determinare.
Toate aceste erori și îmbunătățiri au nume, iar vorbirea despre ele va fi mai ușor odată ce le cunoașteți. Greșeala totală făcută folosind media eșantionului pentru a prezice, Σ(y – y)2, se numește suma pătratelor, total. Greșeala totală făcută folosind regresia, Σ(y-ŷ)2, se numește suma pătratelor, eroare (reziduală). Îmbunătățirea generală realizată prin utilizarea regresiei, Σ(ŷ – y)2 se numește suma pătratelor, regresie sau suma pătratelor, model. Ar trebui să puteți vedea că:
suma pătratelor, total = suma pătratelor, regresie + suma pătratelor, eroare (reziduală)
∑(y –y)2 = ∑(ŷ – y)2 + ∑(y – ŷ)2
Cu alte cuvinte, variațiile totale în y pot fi împărțite în două surse: variațiile explicate și variațiile neexplicate. În plus, putem rescrie ecuația de mai sus ca:
SST = SSR + SSE
unde SST reprezintă suma pătratelor din cauza variațiilor totale, SSR măsoară suma pătratelor datorită modelului de regresie estimat, care este explicat prin variabila x, iar SSE măsoară toate variațiile datorate altor factori excluși din modelul estimat.
Revenind la ideea de bunătate a potrivirii, ar trebui să se poată calcula cu ușurință procentul fiecărei variații în raport cu variațiile totale. În special, puterea modelului de regresie estimat poate fi acum măsurată. Deoarece suntem interesați de partea explicată a variațiilor de către modelul estimat, pur și simplu împărțim ambele părți ale ecuației de mai sus la SST și obținem:
SST/SST = SSR/SST + SSE/SST
Apoi izolăm această ecuație pentru proporția explicată, cunoscută și sub numele de R-pătrat:
R2 = 1 – SSE/SST
Numai în cazurile în care o intersecție este inclusă într-un model de regresie simplă, valoarea lui R2 va fi delimitată între zero și unu. Cu cât R2 este mai aproape de unu, cu atât modelul este mai puternic. Alternativ, R2 se găsește și prin:
R2 = Σpătratelor datorită regresiei/Σpătratelor totalurilot
Acesta este raportul dintre îmbunătățirea realizată folosind regresia și greșelile făcute folosind media. Numătorul este îmbunătățirea pe care o face regresia folosind media pentru a prezice; numitorul sunt greșelile (erorile) făcute folosind media. Astfel, R2 arată pur și simplu ce proporție dintre greșelile făcute folosind media sunt eliminate prin utilizarea regresiei.
În cazul pieței de apartamente cu un dormitor din Nelson, BC, procentul variațiilor de preț pentru apartamente este estimat la aproximativ 50%. Acest lucru indică faptul că doar jumătate din fluctuațiile prețurilor apartamentelor față de prețul mediu pot fi explicate prin distanța apartamentelor față de centrul orașului. Celelalte 50% nu sunt controlate (adică sunt neexplicate) și fac obiectul cercetărilor ulterioare. O abordare tipică este adăugarea de factori mai relevanți la modelul de regresie simplă. În acest caz, modelul estimat este denumit model de regresie multiplă.
Deși R2 nu este folosit pentru a testa ipoteze, are o semnificație mai intuitivă decât scorul F. Scorul F este măsura utilizată de obicei într-un test de ipoteză pentru a vedea dacă regresia a adus o îmbunătățire semnificativă față de utilizarea mediei. Este utilizat deoarece distribuția de eșantionare a scorurilor F pe care o urmează este tipărită în tabelele din spatele majorității cărților de statistică, astfel încât să poată fi utilizată pentru testarea ipotezelor. Funcționează indiferent de câte variabile explicative sunt folosite. Mai formal, luați în considerare o populație de observații multivariate, (y, x1, x2, …, xm), unde nu există o relație liniară între y și x, astfel încât y ≠ f(y, x1, x2, …, xm) . Dacă sunt luate eșantioane din n observații, o ecuație de regresie estimată pentru fiecare eșantion și o statistică, F, găsită pentru fiecare regresie eșantion, atunci acele F vor fi distribuite ca cele prezentate în Figura 8.5, tabelul F cu (m, n –m-1) df.
Figura 8.5 Șablon Excel interactiv al unui tabel F – vezi Anexa 8. https://www.telework.ro/wp-content/uploads/2022/03/Chapter-8_Fig-8.5_Tabel_F.xlsx
Valoarea lui F poate fi calculată ca:
F = (Σpătratelor regresiei/m)/(Σpătratelor reziduale/(n-m-1)) = (îmbunătățirea făcută/m)/(greșelile încă făcute/(n – m – 1)) = (Σ(ŷ – y)2/m)/(Σ(y – ŷ)2/(n – m – 1))
unde n este dimensiunea eșantionului și m este numărul de variabile explicative (câte x sunt în ecuația de regresie).
Dacă Σ(ŷ–y)2 suma de regresie a pătratelor (îmbunătățirea), este mare în raport cu Σ(ŷ–y)3, suma de pătrate reziduală (greșelile încă făcute), atunci scorul F va fi mare. Într-o populație în care nu există o relație funcțională între y și x, linia de regresie va avea o pantă de zero (va fi plată), iar ŷ va fi aproape de y. Ca rezultat, foarte puține mostre din astfel de populații vor avea o sumă mare de regresii pătrate și scoruri F mari. Deoarece acest scor F este distribuit ca cel din tabelele F, tabelele vă pot spune dacă scorul F pe care îl produce o ecuație de regresie eșantion este suficient de mare pentru a fi considerat puțin probabil să apară dacă y ≠ f(y, x1, x2, …, xm). Suma pătratelor de regresie este împărțită la numărul de variabile explicative pentru a ține seama de faptul că scade întotdeauna când se adaugă mai multe variabile. De asemenea, puteți privi acest lucru ca găsirea îmbunătățirii pe variabilă explicativă. Suma pătratelor reziduale este împărțită la un număr foarte apropiat de numărul de observații deoarece crește întotdeauna dacă se adaugă mai multe observații. Puteți privi, de asemenea, aceasta ca o greșeală aproximativă pentru fiecare observație.
H0 : y ≠ f(y, x1, x2, …, xm)
Pentru a testa pentru a vedea dacă o ecuație de regresie merită estimată, testați pentru a vedea dacă pare să existe o relație funcțională:
Ha : y = f(y, x1, x2, …, xm)
Acesta ar putea arăta ca un test cu două cozi, deoarece H0 are un semn egal. Dar, privind ecuația pentru scorul F, ar trebui să puteți vedea că datele acceptă Ha numai dacă scorul F este mare. Acest lucru se datorează faptului că datele susțin existența unei relații funcționale dacă suma de regresie a pătratelor este mare în raport cu suma de pătrate reziduală. Deoarece tabelele F sunt de obicei tabele cu o singură coadă, alegeți un α, mergeți la tabelele F pentru acel α și (m, n–m-1) df și găsiți tabelul F. Dacă F calculat este mai mare decât tabelul F, atunci F calculat este puțin probabil să se fi produs dacă H0 este adevărat și puteți decide în siguranță că datele acceptă Ha. Există o relație funcțională în populație.
Acum că ați învățat toți pașii necesari pentru estimarea unui model de regresie simplă, vă poate lua ceva timp pentru a reestima modelul apartamentului Nelson sau orice alt model de regresie simplă, folosind șablonul interactiv Excel prezentat în Figura 8.6. Ca toate celelalte șabloane interactive din acest ghid, puteți modifica valorile numai în celulele galbene. Rezultatul va fi afișat automat în acest șablon. Pentru acest șablon, puteți estima doar modele de regresie simple cu 30 de observații. Folosiți special paste/values atunci când lipiți datele din alte foi de calcul. Primul pas este să introduceți datele dvs. sub variabile independente și dependente. Apoi, selectați nivelul alfa. Verificați-vă rezultatele atât în ceea ce privește semnificația individuală, cât și globală. Odată ce modelul a trecut toate aceste cerințe, puteți selecta o valoare adecvată pentru variabila independentă, care în acest exemplu este distanța până la centrul orașului, pentru a estima atât intervalele de încredere pentru prețul mediu al unui astfel de apartament, cât și intervalele de predicție pentru distanța selectată. Ambele intervale sunt discutate mai târziu în acest capitol. Rețineți că prin modificarea oricăreia dintre valorile din zonele galbene din acest șablon, toate calculele vor fi actualizate, inclusiv testele de semnificație și valorile atât pentru intervalele de încredere, cât și pentru intervalele de predicție.
Figura 8.6 Șablon Excel interactiv pentru regresie simplă – vezi Anexa 8. https://www.telework.ro/wp-content/uploads/2022/03/Chapter-8_Fig-8.5_Tabel_F.xlsx
Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0
© 2022 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu
Lasă un răspuns