În estimarea parametrilor necunoscuți ai populației pentru linia de regresie, trebuie să aplicăm o metodă prin care distanțele verticale dintre linia de regresie care urmează să fie estimată și valorile observate în eșantionul nostru să fie minimizate. Această distanță minimizată se numește eroare de eșantion, deși este mai frecvent denumită reziduu și notă cu e. Într-o formă mai matematică, diferența dintre y și valoarea sa prezisă este reziduul din fiecare pereche de observații pentru x și y. Evident, unele dintre aceste reziduuri vor fi pozitive (peste linia estimată) iar altele vor fi negative (sub linie). Dacă adăugăm toate aceste reziduuri peste dimensiunea eșantionului și le ridicăm la puterea a doua pentru a preveni șansa ca semnele pozitive și negative să se anuleze reciproc, putem scrie următorul criteriu pentru problema noastră de minimizare:
S = MinΣi=0n(y – y^)2
S este suma pătratelor reziduurilor. Minimizând S peste orice set dat de observații pentru x și y, vom obține următoarea formulă utilă:
b = Σ(x – x)(y – y)/Σ(x – x)2
După calcularea valorii lui b din formula de mai sus din datele eșantionului nostru și mediile celor două serii de date pe x și y, se poate recupera pur și simplu intersecția liniei estimate folosind următoarea ecuație:
a = y – bx
Pentru datele eșantionului și având în vedere intersecția și panta estimate, pentru fiecare observație putem defini un rezidual ca:
e = y – y^ = y – a – bx
În funcție de valorile estimate pentru intersecție și pantă, putem desena linia estimată împreună cu toate datele eșantionului într-un panou y–x. Astfel de grafice sunt cunoscute sub numele de diagrame de dispersie. Luați în considerare analiza noastră a prețului apartamentelor cu un dormitor din Nelson, BC. Am colecta date pentru y = prețul unui apartament cu un dormitor, x1 = distanța asociată acestuia față de centrul orașului și x2 = dimensiunea apartamentului, așa cum se arată în Tabel.
(Tabel Date pentru prețul, dimensiunea și distanța apartamentelor din Nelson, BC)
y = prețul apartamentelor în 1000 USD
x1 = distanța apartament față de centrul orașului în kilometri x2 = dimensiunea apartamentului în picioare pătrate |
||
y | x1 | x2 |
55 | 1.5 | 350 |
51 | 3 | 450 |
60 | 1.75 | 300 |
75 | 1 | 450 |
55.5 | 3.1 | 385 |
49 | 1.6 | 210 |
65 | 2.3 | 380 |
61.5 | 2 | 600 |
55 | 4 | 450 |
45 | 5 | 325 |
75 | 0.65 | 424 |
65 | 2 | 285 |
Graficul (prezentat în Figura 8.1) este un grafic de dispersie a prețurilor apartamentelor și a distanțelor acestora față de centrul orașului, împreună cu o linie de regresie propusă.
(Diagrama de dispersie a prețului, distanța față de centrul orașului, împreună cu o linie de regresie propusă)
Pentru a reprezenta o astfel de diagramă de împrăștiere, puteți utiliza multe pachete software statistice disponibile, inclusiv Excel, SAS și Minitab. În această diagramă de împrăștiere, a fost prezentată o linie de regresie simplă negativă. Ecuația estimată pentru această diagramă de împrăștiere din Excel este:
y^ = 71,84 – 5,38x
Unde a = 71,84 și b = -5,38. Cu alte cuvinte, la fiecare kilometru suplimentar față de centrul orașului se află un apartament, prețul apartamentului fiind estimat la 5380 USD mai ieftin, adică 5,38 * 1000 USD = 5380 USD. S-ar putea, de asemenea, să fiți curios în ceea ce privește valorile ajustate din acest model estimat. Puteți introduce pur și simplu valoarea reală pentru x în linia estimată și puteți găsi valorile potrivite pentru prețurile apartamentelor. Reziduurile pentru toate cele 12 observații sunt prezentate în Figura de mai jos.
Reziduuri |
-8,77 |
-4,70 |
-2,43 |
8,54 |
0,34 |
-14,23 |
5,53 |
0,42 |
4,68 |
0,05 |
6,66 |
3,92 |
De asemenea, trebuie să observați că minimizând erorile, nu le-ați eliminat; mai degrabă, această metodă a celor mai mici pătrate garantează doar linia de regresie estimată cea mai potrivită din datele eșantionului.
În prezența erorilor rămase, trebuie să fim conștienți de faptul că există încă și alți factori care ar putea să nu fi fost incluși în modelul nostru de regresie și sunt responsabili pentru fluctuațiile erorilor rămase. Adăugând la model acești factori excluși, dar relevanți, probabil că eroarea rămasă va prezenta fluctuații mai puțin semnificative. În determinarea prețului acestor apartamente, factorii lipsă pot include vârsta apartamentului, dimensiunea etc. Deoarece acest tip de model de regresie nu include mulți factori relevanți și presupune doar o relație liniară, este cunoscut ca un model de regresie liniară simplă. .
Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0
© 2022 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu
Lasă un răspuns