Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Analiza de regresie multiplă în statistică

Analiza de regresie multiplă în statistică

Când adăugăm mai multe variabile explicative modelului nostru de regresie simplă pentru a-i consolida capacitatea de a explica datele din lumea reală, transformăm de fapt un model de regresie simplu într-un model de regresie multiplă. Abordarea celor mai mici pătrate pe care am folosit-o în cazul regresiei simple poate fi încă utilizată pentru analiza regresiei multiple.

Conform discuției noastre din secțiunea modelului de regresie simplă, R2 estimat scăzut a indicat că doar 50% din variațiile prețului apartamentelor din Nelson, BC, s-au explicat prin distanța lor față de centrul orașului. Evident, ar trebui să existe mai mulți factori relevanți care pot fi adăugați în acest model pentru a-l face mai puternic. Să adăugăm al doilea factor explicativ acestui model. Am colectat date pentru suprafața fiecărui apartament în metri pătrați (adică, x2). Dacă ne întoarcem la Excel și ne estimăm modelul incluzând noua variabilă adăugată, vom vedea imprimarea prezentată în Figura.

Regresie multiplă - Imprimare Excel(Imprimare Excel)

Ecuația de estimare a modelului de regresie este:

preț estimat apartamente =  60,041 – 5,393 * distanța + 0,03 * zona

Aceasta este ecuația pentru un plan, echivalentul tridimensional al unei linii drepte. Este încă o funcție liniară, deoarece niciunul dintre x nu este nici ridicat la o putere, nici extrasă o rădăcină și nici nu sunt înmulțiți împreună. Puteți avea și mai multe variabile independente și, atâta timp cât funcția este liniară, puteți estima panta, β, pentru fiecare variabilă independentă.

Înainte de a utiliza acest model estimat în scopuri de predicție și de luare a deciziilor, ar trebui să testăm trei ipoteze. În primul rând, putem folosi scorul F pentru a testa dacă modelul de regresie îmbunătățește capacitatea noastră de a prezice prețul apartamentelor. Cu alte cuvinte, testăm semnificația generală a modelului estimat.

În al doilea și al treilea rând, putem folosi scorurile t pentru a testa pentru a vedea dacă pantele distanței și ariei sunt diferite de zero. Aceste două teste t sunt cunoscute și ca teste individuale de semnificație.

Pentru a efectua primul test, alegem un α = 0,05. Scorul F este pătratul mediu al regresiei sau al modelului peste pătratul mediu rezidual sau al erorii, astfel încât df pentru statistica F sunt mai întâi df pentru modelul de regresie și, în al doilea rând, df pentru eroare. Există 2 și 9 df pentru testul F. Conform acestui tabel F, cu 2 și 9 df, scorul F critic pentru α = 0,05 este 4,26.

Ipotezele sunt:

H0: preț ≠ f(distanță, zonă)

Ha: preț = f(distanță, zonă)

Deoarece scorul F din regresie, 6,812, este mai mare decât scorul F critic, 4,26, decidem că datele sprijină Ho și concluzionăm că modelul ne ajută să prezicăm prețul apartamentelor. Alternativ, spunem că există o astfel de relație funcțională în populație.

Acum, trecem la testul individual al semnificației. Putem testa pentru a vedea dacă prețul depinde de distanță și zonă. Există (n – m – 1) = (12 – 2 – 1) = 9 df. Există două seturi de ipoteze, una pentru β1, panta pentru distanță și una pentru β2, panta pentru zonă. Pentru un oraș mic, ne putem aștepta ca β1, panta distanței, să fie negativă și ca β2 să fie pozitiv. Prin urmare, vom folosi un test cu o singură coadă pe β1, precum și pentru β2:

H0: β1 < 0

Ha: β2 < 0

Deoarece avem două teste cu câte o singură coadă, valorile t pe care le alegem din tabelul t vor fi aceleași pentru cele două teste. Folosind α = 0,05 și 9 df, alegem 0,05/2 = 0,025 pentru scorul t pentru β1 cu un test cu o coadă și obținem 2,262. Privind înapoi la imprimarea noastră Excel și verificând scorurile t, decidem că distanța afectează prețul apartamentelor, dar suprafața nu este un factor semnificativ în explicarea prețului apartamentelor. Observați că imprimarea oferă, de asemenea, un scor t pentru intersecție, așa că am putea testa pentru a vedea dacă intersecția este egală cu zero sau nu.

Alternativ, se poate continua și compara direct valorile p din imprimarea Excel cu nivelul asumat de semnificație (adică, α = 0,05). Putem vedea cu ușurință că valorile p asociate cu intersecția și prețul sunt ambele mai mici decât alfa și, ca urmare, respingem ipoteza că coeficienții asociați sunt zero (adică ambii sunt semnificativi). Cu toate acestea, aria nu este un factor semnificativ, deoarece valoarea p asociată este mai mare decât alfa.

Deși există și alte ipoteze și condiții necesare atât în ​​modelele de regresie simple, cât și în cele multiple (încurajăm cititorii să consulte un manual de statistici de afaceri intermediare pentru discuții mai detaliate), aici ne concentrăm doar pe două puncte relevante despre utilizarea și aplicațiile regresiei multiple.

Primul punct este legat de interpretarea coeficienților estimați într-un model de regresie multiplă. Ar trebui să aveți grijă să rețineți că într-un model de regresie simplă, coeficientul estimat al variabilei noastre independente este pur și simplu panta dreptei și poate fi interpretat. Se referă la răspunsul variabilei dependente la o modificare de o unitate a variabilei independente. Cu toate acestea, această interpretare într-un model de regresie multiplă ar trebui să fie ușor ajustată. Coeficienții estimați în cadrul analizei de regresie multiplă sunt răspunsul variabilei dependente la o modificare de o unitate a uneia dintre variabilele independente atunci când nivelurile tuturor celorlalte variabile independente sunt menținute constante. În exemplul nostru, coeficientul de preț estimat al unui apartament din Nelson, BC, indică faptul că, pentru o anumită dimensiune a apartamentului, va scădea cu 5,248 * 1000 = 5248 USD pentru fiecare kilometru în care apartamentul este departe de centrul orașului.

Al doilea punct se referă la utilizarea lui R2 în analiza regresiei multiple. Din punct de vedere tehnic, adăugarea mai multor variabile independente la model va crește valoarea lui R2, indiferent dacă variabilele adăugate sunt relevante sau irelevante în explicarea variației variabilei dependente. Pentru a ajusta R2 mărit din cauza variabilelor irelevante adăugate modelului, se recomandă următoarea formulă în cazul regresiei multiple:

R2ajustat = 1 – (1 – R2)∙(n – 1)/(n – k)

unde n este dimensiunea eșantionului și k este numărul parametrilor estimați în modelul nostru.

Revenind la rezultatele anterioare Excel pentru modelul de regresie multiplă estimat pentru exemplul apartamentului, putem vedea că, în timp ce R2 a fost crescut de la 0,504 la 0,612 datorită noului factor adăugat, dimensiunea apartamentului, R2 ajustat a scăzut valoarea nivelul mărit la 0,526. Pentru a înțelege mai bine, ar trebui să acordați atenție valorii p asociate pentru factorul nou adăugat. Deoarece această valoare este mai mare de 0,05, nu putem respinge ipoteza că adevăratul coeficient al mărimii (suprafața) apartamentului este semnificativ diferit de zero. Cu alte cuvinte, în situația actuală, dimensiunea apartamentului nu este un factor semnificativ, totuși valoarea lui R2 a fost mărită!

În plus, R2 ajustat indică faptul că doar 61,2% din variațiile prețurilor apartamentelor cu un dormitor din Nelson, BC, pot fi explicate prin locațiile și dimensiunile acestora. Aproape 40% din variațiile prețului încă nu pot fi explicate prin acești doi factori. Se poate încerca să se îmbunătățească acest model, căutând factori mai relevanți, cum ar fi stilul apartamentului, anul de construcție etc. și adăuga la acest model.

Folosind șablonul interactiv Excel prezentat în Figura 8.8, puteți estima un model de regresie multiplă. Din nou, introduceți datele dvs. numai în celulele galbene. Pentru acest șablon vi se permite să utilizați până la 50 de observații pentru fiecare coloană. La fel ca toate celelalte șabloane interactive din acest ghid, utilizați lipiri/valori speciale atunci când lipiți datele din alte foi de calcul. Mai exact, dacă aveți mai puțin de 50 de intrări de date, trebuie să completați și restul celulelor galbene goale de sub X1, X2 și Y cu zerouri. Acum, selectați nivelul alfa. Făcând clic pe Enter, nu numai că veți avea toți coeficienții estimați împreună cu valorile lor t etc., ci veți fi, de asemenea, ghidat pentru a afla dacă modelul este semnificativ atât în ​​general, cât și individual. Dacă valoarea dvs. p asociată cu valoarea F din tabelul ANOVA nu este mai mică decât nivelul alfa selectat, veți vedea un mesaj care indică faptul că modelul dvs. estimat nu este semnificativ în general și, ca urmare, nicio valoare pentru C.I. și P.I. va fi arătată. Prin schimbarea nivelului alfa și/sau prin adăugarea de date mai precise, este posibil să se estimeze un model de regresie multiplă mai semnificativ.

Un element interactiv sau media a fost exclus din această versiune a textului. Îl puteți vizualiza online aici: https://www.telework.ro/wp-content/uploads/2022/03/Chapter-8_Fig-8.8_Regresie_multipla.xlsx

Șablon Excel interactiv pentru modelul de regresie multiplă (Șablon Excel interactiv pentru modelul de regresie multiplă)

Un alt punct se referă la formatul modelului de regresie multiplă presupusă. Puteți vedea că natura asociațiilor dintre variabila dependentă și toate variabilele independente poate să nu fie întotdeauna liniară. În realitate, vă veți confrunta cu cazuri în care astfel de relații pot fi mai bine formate printr-un model neliniar. Fără a intra în detaliile unui astfel de model neliniar, doar pentru a vă face o idee, ar trebui să puteți transforma datele selectate pentru X1, X2 și Y înainte de a estima modelul. De exemplu, un posibil model neliniar de regresie multiplă poate fi un model în care atât variabilele dependente, cât și cele independente au fost transformate într-un logaritm natural mai degrabă decât la un nivel. Pentru a estima un astfel de model în Figura 8.5, tot ce trebuie să faceți este să transformați datele din toate cele trei coloane într-o foaie separată de la nivel la logaritm. Pentru a face acest lucru, utilizați pur și simplu =log(să spunem A1) unde în celula A1 aveți prima observație a lui X1 și =log(să spunem B1),…. În cele din urmă, pur și simplu tăiați și lipiți/valoarea special în coloanele galbene din șablon. Acum ați estimat un model de regresie multiplă cu ambele părți într-o formă neliniară (adică, formă log).

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2022 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat 0.002.24 Selectează opțiunile
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Termenul megadate (Big Data, date masive) este adesea folosit în mod vag pentru a desemna paleta de algoritmi, tehnologii și sisteme utilizate pentru colectarea datelor de volum și varietate fără precedent și extragerea de valoare din acestea prin calculul masiv … Citeşte mai mult

Nu a fost votat 3.815.71 Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat 3.817.62 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.