Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Analiza de regresie în statistică

Analiza de regresie în statistică

Analiza de regresie, ca majoritatea statisticilor multivariate, vă permite să deduceți că există o relație între două sau mai multe variabile. Aceste relații sunt rareori exacte, deoarece există variații cauzate de multe variabile, nu doar de variabilele studiate.

Dacă spuneți că studenții care învață mai mult obțin note mai bune, faceți practic ipoteza că există o relație pozitivă între o variabilă, studiul, și o altă variabilă, notele. Puteți apoi să completați inferența și să testați ipoteza prin colectarea unui eșantion de date (cantitatea studiată, note) de la unii studenți și să utilizați regresia pentru a vedea dacă relația din eșantion este suficient de puternică pentru a deduce în siguranță că există o relație în populație. Observați că, chiar dacă studenții care învață mai mult obțin note mai bune, relația în populație nu ar fi perfectă; aceeași cantitate de studii nu va duce la aceleași note pentru fiecare student (sau pentru un student de fiecare dată). Unii studenți urmează cursuri mai dificile, cum ar fi chimia sau statistica; unii sunt mai deștepți; unii studiază eficient; iar unii au noroc și constată că profesorul i-a întrebat exact ce au înțeles cel mai bine. Pentru fiecare nivel de cantitate studiată va exista o distribuție a notelor. Dacă există o relație între studii și note, locația acelei distribuții a notelor se va schimba într-o manieră ordonată pe măsură ce treceți de la nivelurile inferioare la cele superioare de studiu.

Analiza de regresie este una dintre cele mai utilizate și mai puternice tehnici statistice multivariate pentru că deduce existența și forma unei relații funcționale într-o populație. Odată ce învățați cum să folosiți regresia, veți putea estima parametrii — panta și interceptarea — ai funcției care leagă două sau mai multe variabile. Cu această funcție estimată, veți putea deduce sau prognoza lucruri precum costurile unitare, ratele dobânzii sau vânzările într-o gamă largă de condiții. Deși cele mai simple tehnici de regresie par limitate în aplicațiile lor, statisticienii au dezvoltat o serie de variații ale regresiei care extind foarte mult utilitatea tehnicii. Distribuția t și distribuția F vor putea fi folosite pentru a testa ipotezele.

Ce este regresia?

Definiția unei funcții poate fi formală, ca cea din textul meu de calcul pentru începători: „O funcție este un set de perechi ordonate de numere (x,y) astfel încât fiecărei valori a primei variabile (x) să îi corespundă o valoare unică a celei de-a doua variabile (y)” (Thomas, 1960). (1) Mai intuitiv, dacă există o relație regulată între două variabile, există de obicei o funcție care descrie relația. Funcțiile sunt scrise sub mai multe forme. Cel mai general este y = f(x), care spune pur și simplu că valoarea lui y depinde de valoarea lui x într-un mod regulat, deși forma relației nu este specificată. Cea mai simplă formă funcțională este funcția liniară în care:

y = α + βx

unde α și β sunt parametri, rămânând constanți pe măsură ce x și y se schimbă. α este intersecția și β este panta. Dacă valorile lui α și β sunt cunoscute, puteți găsi y care merge cu orice x punând x în ecuație și rezolvând. Pot exista funcții în care o variabilă depinde de valorile a două sau mai multe alte variabile în care x1 și x2 determină împreună valoarea lui y. Pot exista și funcții neliniare, în care valoarea variabilei dependente (y în toate exemplele pe care le-am folosit până acum) depinde de valorile uneia sau mai multor alte variabile, dar valorile celorlalte variabile sunt la pătrat, sau la o altă putere sau rădăcină sau înmulțite împreună, înainte ca valoarea variabilei dependente să fie determinată. Regresia vă permite să estimați direct parametrii numai în funcțiile liniare, deși există trucuri care permit ca multe forme funcționale neliniare să fie estimate indirect. De asemenea, regresia vă permite să testați pentru a vedea dacă există o relație funcțională între variabile, testând ipoteza că fiecare dintre pante are valoarea zero.

Mai întâi, să luăm în considerare cazul simplu al unei funcții cu două variabile. Considerați că y, variabila dependentă, este o funcție liniară a lui x, variabila independentă — y depinde de x. Colectați un eșantion de perechi (x, y) și reprezentați-le pe un set de axe x, y. Ideea de bază din spatele regresiei este de a găsi ecuația dreptei care se apropie cât mai mult de cât mai multe puncte. Parametrii liniei trase prin eșantion sunt estimatori imparțiali ai parametrilor dreptei care s-ar apropia cât mai mult posibil de cât mai multe puncte din populație, dacă populația ar fi fost colectată și reprezentată grafic. În conformitate cu convenția de a folosi litere grecești pentru valorile populației și litere romane pentru valorile eșantionului, linia trasată printr-o populație este:

y = α + βx

în timp ce linia trasată printr-o probă este:

y = a + bx

În cele mai multe cazuri, chiar dacă întreaga populație ar fi fost colectată, linia de regresie nu ar trece prin fiecare punct. Majoritatea fenomenelor cu care se confruntă cercetătorii în afaceri nu sunt perfect deterministe, așa că nicio funcție nu va prezice sau explica perfect fiecare observație.

Imaginați-vă că ați vrut să studiați prețul estimativ pentru un apartament cu un dormitor în Nelson, BC. Decideți să estimați prețul în funcție de locația acestuia în raport cu centrul orașului. Dacă ați colecta 12 perechi de mostre, ați găsi diferite apartamente situate la aceeași distanță de centrul orașului. Cu alte cuvinte, ați putea trasa o distribuție a prețurilor pentru apartamentele situate la aceeași distanță de centrul orașului sau departe de centrul orașului. Când utilizați regresia pentru a estima parametrii preț = f(distanță), estimați parametrii liniei care leagă prețul mediu în fiecare locație. Deoarece cel mai bun lucru la care vă puteți aștepta este să prezică prețul mediu pentru o anumită locație, cercetătorii își scriu adesea modelele de regresie cu un termen suplimentar, termenul de eroare, care notează că mulți dintre membrii populației din perechile (locația, prețul apartamentului) nu vor avea exact prețul prezis deoarece multe dintre puncte nu se află direct pe linia de regresie. Termenul de eroare este de obicei notat ca ε, sau epsilon și adesea vedeți ecuații de regresie scrise:

y = α + βx + ε

Strict, distribuția lui ε la fiecare locație trebuie să fie normală, iar distribuțiile lui ε pentru toate locațiile trebuie să aibă aceeași varianță (aceasta este cunoscută ca homoscedasticitate pentru statisticieni).

Referințe

  • 1. Thomas, G.B. (1960). Calculus and analytical geometry (3rd ed.). Boston, MA: Addison-Wesley.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2022 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Rețele de comunicații 5G
Rețele de comunicații 5G

Descoperă cum 5G transformă lumea și pregătește-te să fii parte din viitor.

Nu a fost votat 14.32 lei32.94 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Lucrul cu baze de date
Lucrul cu baze de date

Descoperă puterea bazelor de date cu acest ghid complet.

Nu a fost votat 19.11 lei38.26 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Transformă-ți perspectiva asupra tehnologiei blockchain și începe să descoperi oportunitățile digitale de mâine!

Nu a fost votat 23.89 lei57.41 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *