Analiza de regresie

În modelarea statistică, analiza de regresie este un proces statistic de estimare a relațiilor dintre variabile. Include multe tehnici pentru modelarea și analiza mai multor variabile, atunci când se pune accentul pe relația dintre o variabilă dependentă și una sau mai multe variabile independente (sau „predictori”). Mai precis, analiza de regresie ne ajută să înțelegem cum se modifică valoarea tipică a variabilei dependente (sau „variabila criteriu”) atunci când oricare dintre variabilele independente este variată, în timp ce celelalte variabile independente sunt menținute fixe. Cel mai frecvent, analiza de regresie estimează așteptarea condiționată a variabilei dependente având în vedere variabilele independente – adică valoarea medie a variabilei dependente atunci când variabilele independente sunt fixe. Mai rar, se pune accent pe o cuantilă sau pe alt parametru de locație al distribuției condiționate a variabilei dependente, date fiind variabilele independente. În toate cazurile, ținta de estimare este o funcție a variabilelor independente numită funcție de regresie. În analiza de regresie, este, de asemenea, interesant să se caracterizeze variația variabilei dependente în jurul funcției de regresie care poate fi descrisă printr-o distribuție de probabilitate. O abordare înrudită, dar distinctă este analiza condiției necesare (NCA), care estimează valoarea maximă (mai degrabă decât medie) a variabilei dependente pentru o anumită valoare a variabilei independente (linia de plafon, mai degrabă decât linia centrală) pentru a identifica ce valoare de variabilă independentă este necesară dar nu suficientă pentru o valoare dată a variabilei dependente.

Analiza de regresie este utilizată pe scară largă pentru predicție și prognoză, unde utilizarea sa se suprapune substanțial cu domeniul învățării automate. Analiza de regresie este, de asemenea, utilizată pentru a înțelege care dintre variabilele independente sunt legate de variabila dependentă și pentru a explora formele aceste relații. În circumstanțe restrânse, analiza de regresie poate fi utilizată pentru a deduce relații cauzale între variabilele independente și dependente. Totuși, acest lucru poate duce la iluzii sau la relații false, așa că se recomandă prudență; de exemplu, corelația nu implică cauzalitate.

Au fost dezvoltate multe tehnici pentru efectuarea analizei de regresie. Metodele cunoscute, cum ar fi regresia liniară și regresia cu cele mai mici pătrate obișnuite sunt parametrice, prin aceea că funcția de regresie este definită în termeni de un număr finit de parametri necunoscuți care sunt estimați din date. Regresia neparametrică se referă la tehnici care permit funcției de regresie să se afle într-un set specificat de funcții, care pot fi infinit-dimensionale.

Performanța metodelor de analiză de regresie în practică depinde de forma procesului de generare a datelor și de modul în care acesta se raportează la abordarea de regresie utilizată. Deoarece adevărata formă a procesului de generare a datelor nu este în general cunoscută, analiza de regresie depinde adesea într-o oarecare măsură de formularea de ipoteze despre acest proces. Aceste ipoteze sunt uneori testabile dacă este disponibilă o cantitate suficientă de date. Modelele de regresie pentru predicție sunt adesea utile chiar și atunci când ipotezele sunt încălcate moderat, deși este posibil să nu funcționeze optim. Cu toate acestea, în multe aplicații, în special cu efecte mici sau întrebări de cauzalitate bazate pe date observaționale, metodele de regresie pot da rezultate înșelătoare.

Într-un sens mai restrâns, regresia se poate referi în mod specific la estimarea variabilelor de răspuns continuu, spre deosebire de variabilele de răspuns discret utilizate în clasificare. Cazul unei variabile de ieșire continuă poate fi denumit mai precis regresie metrică pentru a o diferenția de problemele conexe.

Istorie

Cea mai timpurie formă de regresie a fost metoda celor mai mici pătrate, care a fost publicată de Legendre în 1805 și de Gauss în 1809. Legendre și Gauss au aplicat atât metoda la problema determinării, din observații astronomice, a orbitelor corpurilor în jurul Soarelui. (în mare parte comete, dar și mai târziu planetele minore recent descoperite). Gauss a publicat o dezvoltare ulterioară a teoriei celor mai mici pătrate în 1821, inclusiv o versiune a teoremei Gauss-Markov.

Termenul „regresie” a fost inventat de Francis Galton în secolul al XIX-lea pentru a descrie un fenomen biologic. Fenomenul a fost că înălțimile descendenților strămoșilor înalți tind să regreseze în jos spre o medie normală (un fenomen cunoscut și sub numele de regresie spre medie). Pentru Galton, regresia avea doar această semnificație biologică, dar munca sa a fost extinsă ulterior de Udny Yule și Karl Pearson la un context statistic mai general. În lucrarea lui Yule și Pearson, se presupune că distribuția comună a răspunsului și a variabilelor explicative este gaussiană. Această ipoteză a fost slăbită de R.A. Fisher în lucrările sale din 1922 și 1925. Fisher a presupus că distribuția condiționată a variabilei răspuns este gaussiană, dar distribuția comună nu trebuie să fie. În acest sens, ipoteza lui Fisher este mai apropiată de formularea lui Gauss din 1821.

În anii 1950 și 1960, economiștii au folosit calculatoare electromecanice de birou pentru a calcula regresiile. Înainte de 1970, uneori era nevoie de până la 24 de ore pentru a primi rezultatul unei regresii.

Metodele de regresie continuă să fie un domeniu de cercetare activă. În ultimele decenii, s-au dezvoltat noi metode pentru regresie robustă, regresie care implică răspunsuri corelate, cum ar fi seriile de timp și curbele de creștere, regresia în care predictorul (variabila independentă) sau variabilele de răspuns sunt curbe, imagini, grafice sau alte obiecte de date complexe, metode de regresie care acceptă diferite tipuri de date lipsă, regresie neparametrică, metode bayesiene pentru regresie, regresie în care variabilele predictoare sunt măsurate cu eroare, regresia cu mai multe variabile predictoare decât observații și inferența cauzală cu regresie.

Modele de regresie

Modelele de regresie implică următoarele variabile:

  • Parametrii necunoscuți, notați cu P, care pot reprezenta un scalar sau un vector.
  • Variabilele independente, X.
  • Variabila dependentă, Y.

În diverse domenii de aplicare, diferite terminologii sunt utilizate în locul variabilelor dependente și independente.

Un model de regresie raportează Y la o funcție a lui X și β.

Y ≈ f (X, β)

Aproximația este de obicei formalizată ca E(Y | X) = f(X, β). Pentru a efectua analiza de regresie, trebuie specificată forma funcției f. Uneori, forma acestei funcții se bazează pe cunoștințele despre relația dintre Y și X care nu se bazează pe date. Dacă nu sunt disponibile astfel de cunoștințe, se alege un formular flexibil sau convenabil pentru f.

Să presupunem acum că vectorul parametrilor necunoscuți β are lungimea k. Pentru a efectua o analiză de regresie, utilizatorul trebuie să furnizeze informații despre variabila dependentă Y:

  • Dacă se observă N puncte de date de forma (Y, X), unde N < k, majoritatea abordărilor clasice ale analizei de regresie nu pot fi efectuate: deoarece sistemul de ecuații care definește modelul de regresie este subdeterminat, nu există date suficiente pentru a recupera β.
  • Dacă se observă exact N = k puncte de date și funcția f este liniară, ecuațiile Y= f(X, β) pot fi rezolvate mai exact decât aproximativ. Acest lucru se reduce la rezolvarea unui set de N ecuații cu N necunoscute (elementele lui β), care are o soluție unică atâta timp cât X sunt independenți liniar. Dacă f este neliniară, este posibil să nu existe o soluție sau pot exista multe soluții.
  • Cea mai frecventă situație este cea în care sunt observate N > k puncte de date. În acest caz, există suficiente informații în date pentru a estima o valoare unică pentru β care se potrivește cel mai bine datelor într-un anumit sens, iar modelul de regresie atunci când este aplicat datelor poate fi văzut ca un sistem supradeterminat în β.

În ultimul caz, analiza de regresie oferă instrumentele pentru:

  1. Găsirea unei soluții pentru parametrii necunoscuți β care, de exemplu, va minimiza distanța dintre valorile măsurate și cele prezise ale variabilei dependente Y (cunoscută și sub numele de metoda celor mai mici pătrate).
  2. În anumite ipoteze statistice, analiza de regresie utilizează surplusul de informații pentru a furniza informații statistice despre parametrii necunoscuți β și valorile prevăzute ale variabilei dependente Y.

Numărul necesar de măsurători independente

Luați în considerare un model de regresie care are trei parametri necunoscuți, β0, β1 și β2. Să presupunem că un experimentator efectuează 10 măsurători, toate la exact aceeași valoare a vectorului variabil independent X (care conține variabilele independente X1, X2 și X3). În acest caz, analiza de regresie nu reușește să ofere un set unic de valori estimate pentru cei trei parametri necunoscuți;  experimentatorul nu a furnizat suficiente informații. Cel mai bun lucru pe care îl puteți face este să estimați valoarea medie și abaterea standard a variabilei dependente Y. În mod similar, măsurarea la două valori diferite ale lui X ar oferi suficiente date pentru o regresie cu două necunoscute, dar nu pentru trei sau mai multe necunoscute.

Dacă experimentatorul ar fi efectuat măsurători la trei valori diferite ale vectorului variabil independent X, atunci analiza de regresie ar oferi un set unic de estimări pentru cei trei parametri necunoscuți în β.

În cazul regresiei liniare generale, afirmația de mai sus este echivalentă cu cerința ca matricea XTX să fie inversabilă.

Ipoteze statistice

Când numărul de măsurători, N, este mai mare decât numărul de parametri necunoscuți, k, iar erorile de măsurare εi sunt distribuite în mod normal, atunci excesul de informații conținut în măsurători (N – k) este utilizat pentru a face predicții statistice despre parametrii necunoscuți. Acest exces de informații este denumit grade de libertate ale regresiei.

Ipotezele de bază

Ipotezele clasice pentru analiza de regresie includ:

  • Eșantionul este reprezentativ pentru populație pentru predicția de inferență.
  • Eroarea este o variabilă aleatorie cu o medie de zero condiționată de variabilele explicative.
  • Variabilele independente sunt măsurate fără erori. (Notă: dacă nu este așa, modelarea poate fi făcută folosind tehnici de modelare a erorilor în variabile).
  • Variabilele independente (predictorii) sunt liniar independente, adică nu este posibil să exprimați niciun predictor ca o combinație liniară a celorlalți.
  • Erorile sunt necorelate, adică matricea de varianță-covarianță a erorilor este diagonală și fiecare element diferit de zero este varianța erorii.
  • Varianța erorii este constantă între observații (homoscedasticitate). Dacă nu, ar putea fi utilizate în schimb cele mai mici pătrate ponderate sau alte metode.

Acestea sunt condiții suficiente pentru ca estimatorul cu cele mai mici pătrate să posede proprietăți dezirabile; în special, aceste ipoteze implică faptul că estimările parametrilor vor fi nepărtinitoare, consecvente și eficiente în clasa estimatorilor liniari imparțiali. Este important să rețineți că datele reale rareori satisfac ipotezele. Adică, metoda este folosită chiar dacă ipotezele nu sunt adevărate. Variația față de ipoteze poate fi uneori utilizată ca o măsură a cât de departe este de a fi util modelul. Multe dintre aceste ipoteze pot fi relaxate în tratamente mai avansate. Rapoartele analizelor statistice includ, de obicei, analize ale testelor pe eșantionul de date și metodologia pentru potrivirea și utilitatea modelului.

Ipotezele includ suportul geometric al variabilelor. Variabilele independente și dependente se referă adesea la valori măsurate în locații ale punctelor. Pot exista tendințe spațiale și autocorelare spațială în variabilele care încalcă ipotezele statistice ale regresiei. Regresia ponderată geografică este o tehnică de a trata astfel de date. De asemenea, variabilele pot include valori agregate pe zone. Cu datele agregate, problema unității de suprafață modificabile poate cauza variații extreme ale parametrilor de regresie. Când se analizează datele agregate pe granițe politice, codurile poștale sau rezultatele zonelor de recensământ pot fi foarte distincte cu o alegere diferită a unităților.

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Nu rata oportunitatea de a rămâne competitiv într-o lume bazată pe date!

Nu a fost votat 19.11 lei28.68 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Transformă-ți perspectiva asupra tehnologiei blockchain și începe să descoperi oportunitățile digitale de mâine!

Nu a fost votat 23.89 lei57.41 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Inteligența competitivă - Concept - Studii
Inteligența competitivă – Concept – Studii

Inteligența competitivă: instrumentul esențial pentru succesul în afaceri

Nu a fost votat 9.53 lei15.08 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *