Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Predicții statistice folosind regresia simplă estimată

Predicții statistice folosind regresia simplă estimată

Dacă linia de regresie estimată se potrivește bine în date, modelul poate fi utilizat pentru predicții. Folosind modelul de regresie simplă estimată de mai sus, putem prezice prețul unui apartament la o anumită distanță de la centrul orașului. Acesta este cunoscut ca interval de predicție sau I.P. Alternativ, putem prezice prețul mediu al apartamentului, cunoscut și ca interval de încredere sau I.C., pentru valoarea medie.

Pentru a estima intervale pentru prețul unui apartament aflat la șase kilometri de centrul orașului, pur și simplu setăm x=6 și îl înlocuim înapoi în ecuația estimată:

y = 71,84 − 5,38 × 6 = 39,56 USD

Ar trebui să acordați atenție dimensiunii datelor. În acest caz, variabila dependentă este măsurată în 1000 USD. Prin urmare, valoarea estimată pentru un apartament la șase kilometri de centrul orașului este 39,56 * 1000 = 39.560 USD. Această valoare este cunoscută drept estimarea punctuală a predicției și nu este de încredere, deoarece nu este clar cât de aproape este această valoare de valoarea reală a populației.

O estimare mai fiabilă poate fi construită prin stabilirea unui interval în jurul estimării punctuale. Acest lucru se poate face în două moduri. Putem prezice valoarea particulară a lui y pentru o anumită valoare a lui x sau putem estima valoarea așteptată (media) a lui y pentru o anumită valoare a lui x. Pentru valoarea particulară a lui y, folosim următoarea formulă pentru interval:

Y ± ta/2,n-2 * E.S. a predicției

unde eroarea standard, E.S., a predicției este calculată pe baza următoarei formule:

E.S. = s√(1 + 1/n + (x* – x)/Σ(x – x)2)

În această ecuație, x* este valoarea particulară a variabilei independente, care în cazul nostru este 6, iar s este eroarea standard a regresiei, calculată ca:

s = √(SSE/(n – 1))

unde SSE măsoară toate variațiile datorate altor factori excluși din modelul estimat.

Din imprimarea Excel pentru modelul de regresie simplă, această eroare standard este estimată ca 7,02.

Suma pătratelor variabilei independente,

Σi=112(x – x)2

poate fi calculată, de asemenea, așa cum se arată în Figura 8.9.

x (x – x)2
1,5 0,680625
3 0,455625
1,75 0,330625
1 1,755625
3,1 0,600625
1,6 0,525625
2,3 0,000625
2 0,105625
4 2,805625
5 7,155625
0,65 2,805625
2 0,105625
Suma 17,3275

Figura 8.9

Toate aceste valori calculate pot fi înlocuite înapoi în formula pentru S.E. a predicției:

E.S. a I.C. = 7,02√(1/12 + (6 – 2,325)2/17,3275) = 6,52

Acum că E.S. din intervalul de încredere a fost calculat, puteți ridica punctul de limită din tabelul t. Având în vedere gradele de libertate 12 – 2 = 10, valoarea corespunzătoare din tabelul t este 2,23. Folosiți aceste informații pentru a calcula marja de eroare ca 6,52 * 2,23 = 14,54. În cele din urmă, construiți intervalul de predicție pentru valoarea particulară a prețului unui apartament situat la șase kilometri distanță de centrul orașului ca:

39,56 ± 14,54

Aceasta este o versiune compactă a intervalului de predicție. Pentru o versiune mai generală a oricărui interval de încredere pentru orice nivel de încredere dat al lui alfa, putem scrie:

P[Estimare punct – E.M. < valoarea populației < Estimare punct + E.M.] = 1 – α

În mod intuitiv, pentru a spune un nivel de încredere de 0,05, suntem 95% încrezători că parametrul adevărat al populației se va situa în aceste două limite inferioară și superioară:

P[39,56 – 14,54 < Valoarea populației reală < 39,56 + 14,54] = 0,95

Pe baza modelului nostru de regresie simplă, care include doar distanța ca factor semnificativ în estimarea prețului unui apartament și pentru un anumit apartament aflat la șase kilometri de centrul orașului, suntem 95% încrezători că prețul real al unui apartament în Nelson, BC, este între 25,037 USD și 54,096 USD, cu o lățime de 29,059 USD. Nu trebuie să fim surprinși că există o lățime atât de mare, dat fiind faptul că coeficientul de determinare al acestui model a fost de doar 50% și faptul că am selectat o distanță departe de distanța medie față de centrul orașului. Putem întotdeauna îmbunătăți aceste numere adăugând mai multe variabile explicative modelului nostru de regresie simplă. Alternativ, putem prezice doar pentru numerele cât mai mult posibil din apropierea centrului orașului.

Acum estimăm valoarea așteptată (media) a lui y pentru o valoare dată a lui x, așa-numitul interval de predicție. Procesul de construire a intervalelor este foarte asemănător cu cazul precedent, cu excepția faptului că folosim o nouă formulă pentru E.S. și, desigur, stabilim intervalele pentru valoarea medie a prețului apartamentului (adică, = 59,33).

E.S. a I.C. = 7,02√(1 + 1/12 + (6 – 2,325)2/17,3275) = 9,58

Ar trebui să fiți foarte atenți să rețineți diferența dintre această formulă și cea introdusă mai devreme pentru E.S. pentru a ​​prezice valoarea particulară a lui y pentru o anumită valoare a lui x. Arată foarte similar dar această formulă vine cu un 1 în plus în interiorul radicalului!

Marja de eroare este apoi calculată ca 2,179 * 3,82 = 8,32. Folosim aceasta pentru a stabili direct limitele inferioare și superioare ale estimărilor:

Astfel, pentru prețul mediu al apartamentelor situate în Nelson, BC, la șase kilometri de centrul orașului, suntem 95% încrezători că acest preț mediu va fi între 18,200 USD și 60,920 USD, cu o lățime de 47,720 USD. În comparație cu lățimea anterioară pentru I.C., este evident că suntem mai puțin încrezători în prezicerea prețului mediu. Motivul este că E.S. pentru predicție este întotdeauna mai mare decât E.S. pentru intervalul de încredere.

Acest proces poate fi repetat pentru toate nivelurile diferite de x, pentru a calcula intervalele de încredere și de predicție asociate. Făcând acest lucru, vom avea o gamă de niveluri inferioare și superioare atât pentru I.P., cât și pentru I.C.. Toate aceste numere pot fi reproduse în șablonul interactiv Excel prezentat în Figura 8.8. Dacă utilizați un software de statistică, cum ar fi Minitab, veți reprezenta direct o diagramă de împrăștiere cu toate I.P. și I.C., precum și linia de regresie liniară estimată, toate într-o singură diagramă. Figura 8.10 arată o astfel de diagramă de la Minitab pentru exemplul nostru.

Diagramă Minitab pentru I.C. și I.P.
Figura 8.10 Diagramă Minitab pentru I.C. și I.P.

Figura 8.10 indică faptul că o predicție mai fiabilă ar trebui făcută cât mai aproape posibil de media observațiilor noastre pentru x. În acest grafic, lățimile ambelor intervale sunt la cele mai inferioare niveluri, mai aproape de mediile lui x și y.

Ar trebui să aveți grijă să rețineți că Figura 8.10 oferă intervalele prezise numai pentru cazul unui model de regresie simplă. Pentru modelul de regresie multiplă, puteți utiliza alte pachete software statistice, cum ar fi SAS, SPSS etc., pentru a estima atât I.P și I.C. De exemplu, selectând x1 = 3 și x2 = 300 și codând aceste cifre în Minitab, veți vedea rezultatele așa cum se arată în Figura 8.11. Alternativ, puteți utiliza șablonul interactiv Excel furnizat în Figura 8.8 pentru a estima modelul de regresie multiplă și pentru a verifica semnificația parametrilor estimați. Acest șablon poate fi folosit și pentru a construi atât I.P cât și I.C.. pentru valorile date de x1 = 3 și x2 = 300 sau orice alte valori la alegere. În plus, acest șablon vă permite să testați dacă modelul de regresie multiplă estimat este semnificativ în general. Atunci când modelul de regresie multiplă estimat nu este semnificativ în general, acest șablon nu va furniza I.P cât și I.C. Pentru a practica acest caz, poate doriți să schimbați coloanele galbene ale x1 și x2 cu numere aleatoare diferite care nu sunt corelate cu variabila dependentă. Odată ce modelul estimat nu este semnificativ în general, nu vor fi furnizate valori de predicție.

Minitab
Figura 8.11

Cifrele I.C. de 95% și I.P. dintre paranteze sunt limitele inferioare și superioare ale intervalelor date fiind valorile specifice pentru distanța și dimensiunea apartamentelor. Se estimează și valoarea de potrivire a prețului apartamentului, precum și eroarea standard a acestei valori.

Tocmai v-am oferit câteva idei aproximative despre cum se fac calculele de bază ale regresiei. Am omis alți pași necesari pentru a calcula rezultate mai detaliate ale regresiei fără un computer în mod intenționat, deoarece nu veți calcula niciodată o regresie fără un computer (un computer de top) în toți anii dvs. de lucru. Cu toate acestea, lucrând cu aceste șabloane interactive, veți avea o șansă mult mai bună de a vă juca cu orice date pentru a vedea cum pot fi modificate rezultatele și pentru a observa implicațiile lor pentru procesul de luare a deciziilor de afaceri din lumea reală.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2022 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Termenul megadate (Big Data, date masive) este adesea folosit în mod vag pentru a desemna paleta de algoritmi, tehnologii și sisteme utilizate pentru colectarea datelor de volum și varietate fără precedent și extragerea de valoare din acestea prin calculul masiv … Citeşte mai mult

Nu a fost votat $3,99$5,99 Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.