Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Regresia liniară în mineritul datelor (data mining)

Regresia liniară în mineritul datelor (data mining)

postat în: Data mining 0

În regresia liniară, specificația modelului este aceea că variabila dependentă, y, este o combinație liniară a parametrilor (dar nu trebuie să fie liniară în variabilele independente). De exemplu, în regresia liniară simplă pentru modelarea a n puncte de date există o variabilă independentă: xi, și doi parametri, β0 și β1:

linie dreaptă: yi = β0 + β1xi + εi, i = 1, …, n.

În regresia liniară multiplă, există mai multe variabile independente sau funcții ale variabilelor independente.

Adăugarea unui termen în x2i la regresia precedentă dă:

parabola: yi = β0 + β1xi + β2x2i + εi, i = 1, …, n.

Aceasta este încă o regresie liniară; deși expresia din partea dreaptă este pătratică în variabila independentă xi, este liniară în parametrii β0, β1 și β2.

În ambele cazuri, εi este un termen de eroare și indicele i indexează o anumită observație.

Întorcându-ne atenția asupra cazului de linie dreaptă: Având în vedere un eșantion aleatoriu din populație, estimăm parametrii populației și obținem modelul de regresie liniară a eșantionului:

y^i = β^0 + β^1xi

Reziduul, εi = yi – y, este diferența dintre valoarea variabilei dependente prezisă de model, y, și valoarea adevărată a variabilei dependente, yi. O metodă de estimare este cele mai mici pătrate obișnuite. Această metodă obține estimări ale parametrilor care minimizează suma reziduurilor pătrate, SSE (sum of squared residuals), de asemenea uneori notate RSS (residuals sum of squared):

SSE = Σni=1e2i

Minimizarea acestei funcții are ca rezultat un set de ecuații normale, un set de ecuații liniare simultane în parametri, care sunt rezolvate pentru a produce estimatorii de parametri, β^0, β^1

Regresia liniară

(Ilustrație a regresiei liniare pe un set de date.)

În cazul regresiei simple, formulele pentru estimările celor mai mici pătrate sunt

β1 = Σ(xi – x)(yi – y)/Σ(xi – x)2 și β0 = y – β1x

unde x este media valorilor x și y este media valorilor y.

În ipoteza că termenul de eroare a populației are o varianță constantă, estimarea acelei variații este dată de:

σ^2ε = SSE/(n – 2)

Aceasta se numește eroarea pătratică medie (mean square error, MSE) a regresiei. Numitorul este dimensiunea eșantionului redusă cu numărul de parametri de model estimați din aceleași date, (n – p) pentru p regresori sau (n – p – 1) dacă se utilizează o interceptare. În acest caz, p = 1, deci numitorul este n – 2.

Erorile standard ale estimărilor parametrilor sunt date de

σ2β0 = σ^ε √(1/n + x2/Σ(xi – x)2)

σ2β1 = σ^ε √(1/Σ(xi – x)2)

Sub ipoteza suplimentară că termenul de eroare a populației este distribuit în mod normal, cercetătorul poate folosi aceste erori standard estimate pentru a crea intervale de încredere și pentru a efectua teste de ipoteză despre parametrii populației.

Model liniar general

În modelul de regresie multiplă mai general, există p variabile independente:

yi = β1xi1 + β2xi2 + … + βpxip + εi

unde xij este a i-a observație asupra celei de-a j-a variabile independente. Dacă prima variabilă independentă ia valoarea 1 pentru tot i, xi1 = 1, atunci β1 se numește interceptarea regresiei.

Estimările parametrilor celor mai mici pătrate sunt obținute din p ecuații normale. Reziduul poate fi scris ca

εi = yi −β^1xi1 − … −β^pxip

Ecuațiile normale sunt

Σni=1Σpk=1XijXikβ^k = Σni=1Xijyi, j = 1, …, p

În notația matriceală, ecuațiile normale sunt scrise ca

(XX)β^ = XY

unde elementul ij al lui X este xij, elementul i al vectorului coloană Y este yi, iar elementul j al lui β^ este β^j. Astfel, X este n×p, Y este n×1 și P este p×1. Soluția este

β^ = (XX)-1XY.

Diagnosticare

Odată ce un model de regresie a fost construit, poate fi important să se confirme cât de bine se potrivește modelul și semnificația statistică a parametrilor estimați. Verificările utilizate în mod obișnuit pentru cât de bine se potrivește includ R-pătrat, analizele modelului reziduurilor și testarea ipotezelor. Semnificația statistică poate fi verificată printr-un test F al potrivirii generale, urmat de teste t ale parametrilor individuali.

Interpretările acestor teste de diagnostic se bazează în mare măsură pe ipotezele modelului. Deși examinarea reziduurilor poate fi utilizată pentru a invalida un model, rezultatele unui test t sau test F sunt uneori mai dificil de interpretat dacă ipotezele modelului sunt încălcate. De exemplu, dacă termenul de eroare nu are o distribuție normală, în eșantioane mici, parametrii estimați nu vor urma distribuțiile normale și vor complica inferența. Cu eșantioane relativ mari, totuși, poate fi invocată o teoremă limită centrală, astfel încât testarea ipotezelor să poată continua folosind aproximări asimptotice.

Variabile cu „dependență limitată”.

Expresia „dependență limitată” este folosită în statisticile econometrice pentru variabilele categorice și constrânse.

Variabila răspuns poate fi necontinuă („limitată” să se afle pe un subset al liniei reale). Pentru variabilele binare (zero sau unu), dacă analiza continuă cu regresia liniară cu cele mai mici pătrate, modelul se numește model de probabilitate liniară. Modelele neliniare pentru variabile dependente binare includ modelul probit și logit. Modelul probit multivariat este o metodă standard de estimare a unei relații comune între mai multe variabile binare dependente și unele variabile independente. Pentru variabilele categorice cu mai mult de două valori există logit-ul multinomial. Pentru variabilele ordinale cu mai mult de două valori, există modelele logit ordonate și modelele probit ordonate. Modelele de regresie cenzurată pot fi utilizate atunci când variabila dependentă este observată doar uneori, iar modelele de tip de corecție Heckman pot fi utilizate atunci când eșantionul nu este selectat aleatoriu din populația de interes. O alternativă la astfel de proceduri este regresia liniară bazată pe corelația policorică (sau corelațiile poliseriale) între variabilele categoriale. Astfel de proceduri diferă în ipotezele făcute cu privire la distribuția variabilelor în populație. Dacă variabila este pozitivă cu valori scăzute și reprezintă repetarea apariției unui eveniment, atunci pot fi utilizate în schimb modele de numărare precum regresia Poisson sau modelul binomial negativ.

Interpolare și extrapolare

Modelele de regresie prezic o valoare a variabilei Y având în vedere valorile cunoscute ale variabilelor X. Predicția în intervalul de valori din setul de date utilizat pentru adaptarea modelului este cunoscută informal ca interpolare. Predicția în afara acestui interval de date este cunoscută sub numele de extrapolare. Efectuarea extrapolării se bazează puternic pe ipotezele de regresie. Cu cât extrapolarea merge mai departe în afara datelor, cu atât există mai mult spațiu pentru ca modelul să eșueze din cauza diferențelor dintre ipoteze și datele eșantionului sau valorile adevărate.

În general, se recomandă ca atunci când se efectuează extrapolarea, valoarea estimată a variabilei dependente trebuie să însoțească un interval de predicție care reprezintă incertitudinea. Astfel de intervale tind să se extindă rapid pe măsură ce valorile variabilelor independente s-au mutat în afara intervalului acoperit de datele observate.

Din astfel de motive și din altele, unii tind să spună că ar putea fi neînțelept să se întreprindă extrapolări.

Totuși, aceasta nu acoperă întregul set de erori de modelare care pot fi făcute: în special, presupunerea unei anumite forme pentru relația dintre Y și X. O analiză de regresie efectuată în mod corespunzător va include o evaluare a cât de bine forma asumată se potrivește cu datele observate, dar poate face acest lucru numai în intervalul de valori ale variabilelor independente disponibile efectiv. Aceasta înseamnă că orice extrapolare se bazează în special pe ipotezele făcute cu privire la forma structurală a relației de regresie. Sfatul de cea mai bună practică aici este că o relație liniară în variabile și liniară în parametri nu ar trebui aleasă pur și simplu pentru comoditate de calcul, ci că toate cunoștințele disponibile ar trebui utilizate în construirea unui model de regresie. Dacă aceste cunoștințe includ faptul că variabila dependentă nu poate ieși în afara unui anumit interval de valori, aceasta poate fi folosită la selectarea modelului – chiar dacă setul de date observat nu are valori în special în apropierea acestor limite. Implicațiile acestui pas de alegere a unei forme funcționale adecvate pentru regresie pot fi mari atunci când se ia în considerare extrapolarea. Cel puțin, poate asigura că orice extrapolare care decurge dintr-un model adaptat este „realistă” (sau în acord cu ceea ce se știe).

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Transformă informația în putere cu ajutorul acestei cărți indispensabile!

Nu a fost votat $3.99$9.61 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Analitica rețelelor sociale
Analitica rețelelor sociale

Descoperă puterea datelor și transformă modul în care înțelegi și utilizezi rețelele sociale.

Nu a fost votat $3.99$9.61 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Nu rata oportunitatea de a rămâne competitiv într-o lume bazată pe date!

Nu a fost votat $3.99$5.99 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *