Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Tehnici de regresie în analitica predictivă

Tehnici de regresie în analitica predictivă

Abordările și tehnicile utilizate pentru a efectua analize predictive pot fi grupate în linii mari în tehnici de regresie și tehnici de învățare automată.

Modelele de regresie sunt pilonul de bază al analizei predictive. Accentul se pune pe stabilirea unei ecuații matematice ca model pentru a reprezenta interacțiunile dintre diferitele variabile luate în considerare. În funcție de situație, există o mare varietate de modele care pot fi aplicate în timpul efectuării analizei predictive. Unele dintre ele sunt discutate pe scurt mai jos.

Model de regresie liniară

Modelul de regresie liniară analizează relația dintre răspunsul sau variabila dependentă și un set de variabile independente sau predictoare. Această relație este exprimată ca o ecuație care prevăd variabila răspuns ca o funcție liniară a parametrilor. Acești parametri sunt ajustați astfel încât o măsură de potrivire să fie optimizată. O mare parte din efortul de adaptare a modelului se concentrează pe minimizarea dimensiunii reziduului, precum și pe asigurarea că acesta este distribuit aleatoriu în funcție de predicțiile modelului.

Scopul regresiei este de a selecta parametrii modelului astfel încât să minimizeze suma reziduurilor pătrate. Aceasta este denumită estimare cu cele mai mici pătrate obișnuite (OLS) și are ca rezultat cele mai bune estimări lineare imparțiale (BLUE) ale parametrilor dacă și numai dacă ipotezele Gauss-Markov sunt îndeplinite.

Odată ce modelul a fost estimat, am fi interesați să știm dacă variabilele predictoare aparțin modelului, adică este fiabilă estimarea contribuției fiecărei variabile? Pentru a face acest lucru, putem verifica semnificația statistică a coeficienților modelului care pot fi măsurați folosind statistica t. Aceasta înseamnă a testa dacă coeficientul este semnificativ diferit de zero. Cât de bine prezice modelul variabila dependentă pe baza valorii variabilelor independente poate fi evaluat utilizând statistica R2. Măsoară puterea predictivă a modelului, adică proporția variației totale a variabilei dependente care este „explicată” (luată în considerare) prin variația variabilelor independente.

Modele de alegere discretă

Regresia multivariată (mai sus) este utilizată în general atunci când variabila răspuns este continuă și are un interval nemărginit. Adesea, variabila răspuns poate să nu fie continuă, ci mai degrabă discretă. Deși din punct de vedere matematic este fezabilă aplicarea regresiei multivariate la variabile dependente ordonate discrete, unele dintre ipotezele din spatele teoriei regresiei liniare multivariate nu mai sunt valabile și există alte tehnici, cum ar fi modelele cu alegere discretă, care sunt mai potrivite pentru acest tip de analiză. Dacă variabila dependentă este discretă, unele dintre aceste metode superioare sunt regresia logistică, modelele logit multinomiale și probit. Modelele de regresie logistică și probit sunt utilizate atunci când variabila dependentă este binară.

Regresie logistică

Într-un cadru de clasificare, atribuirea probabilităților de rezultat observațiilor poate fi realizată prin utilizarea unui model logistic, care este, practic, o metodă care transformă informații despre variabila dependentă binară într-o variabilă continuă nelimitată și estimează un model multivariat obișnuit.

Testul Wald și al raportului de probabilitate este utilizat pentru a testa semnificația statistică a fiecărui coeficient b din model. Un test care evaluează bunătatea de potrivire a unui model de clasificare este „procentul prezis corect”.

Regresie logistică multinomială

O extensie a modelului logit binar la cazurile în care variabila dependentă are mai mult de 2 categorii este modelul logit multinomial. În astfel de cazuri, restrângerea datelor în două categorii ar putea să nu aibă sens sau poate duce la pierderea bogăției datelor. Modelul logit multinomial este tehnica adecvată în aceste cazuri, mai ales când categoriile de variabile dependente nu sunt ordonate (de exemplu, culori precum roșu, albastru, verde). Unii autori au extins regresia multinomială pentru a include metode de selecție/importanță a caracteristicilor, cum ar fi logit multinomial aleatoriu.

Regresia probit

Modelele Probit oferă o alternativă la regresia logistică pentru modelarea variabilelor dependente categoriale. Chiar dacă rezultatele tind să fie similare, distribuțiile de bază sunt diferite. Modelele Probit sunt populare în științele sociale, cum ar fi economia.

O modalitate bună de a înțelege diferența cheie dintre modelele probit și logit este să presupunem că variabila dependentă este determinată de o variabilă latentă z, care este o sumă a unei combinații liniare de variabile explicative și un termen de zgomot aleatoriu.

Nu observăm z, ci în schimb observăm y care ia valoarea 0 (când z < 0) sau 1 (în caz contrar). În modelul logit presupunem că termenul de zgomot aleatoriu urmează o distribuție logistică cu medie zero. În modelul probit presupunem că urmează o distribuție normală cu medie zero. Rețineți că în științele sociale (de exemplu, economie), probit este adesea folosit pentru a modela situații în care variabila observată y este continuă, dar ia valori între 0 și 1.

Logit versus Probit

Modelul probit a existat mai mult decât modelul logit. Se comportă în mod similar, cu excepția faptului că distribuția logistică tinde să fie ușor mai plată. Unul dintre motivele pentru care a fost formulat modelul logit a fost că modelul probit a fost dificil din punct de vedere computațional din cauza cerinței de a calcula integrale numeric. Cu toate acestea, calculul modern a făcut acest calcul destul de simplu. Coeficienții obținuți din modelul logit și probit sunt destul de apropiați. Cu toate acestea, raportul de cote este mai ușor de interpretat în modelul logit.

Motivele practice pentru alegerea modelului probit în detrimentul modelului logistic ar fi:

  • Există credința puternică a ideii că distribuția de bază este normală
  • Evenimentul real nu este un rezultat binar (de exemplu, starea de faliment), ci o proporție (de exemplu, proporția populației la diferite niveluri de îndatorare).

Modele de serii temporale

Modelele serii temporale sunt folosite pentru a prezice sau prognoza comportamentul viitor al variabilelor. Aceste modele țin cont de faptul că punctele de date preluate de-a lungul timpului pot avea o structură internă (cum ar fi autocorelația, tendința sau variația sezonieră) care ar trebui luată în considerare. Ca urmare, tehnicile standard de regresie nu pot fi aplicate datelor din seria cronologică, iar metodologia a fost dezvoltată pentru a descompune componenta tendință, sezonieră și ciclică a seriei. Modelarea căii dinamice a unei variabile poate îmbunătăți previziunile, deoarece componenta previzibilă a seriei poate fi proiectată în viitor.

Modelele serii temporale estimează ecuațiile diferențelor care conțin componente stocastice. Două forme utilizate în mod obișnuit ale acestor modele sunt modelele autoregresive (AR) și modelele cu medie mobilă (MA). Metodologia Box-Jenkins (1976) dezvoltată de George Box și G.M. Jenkins combină modelele AR și MA pentru a produce modelul ARMA (media mobilă autoregresivă), care este piatra de temelie a analizei staționare a seriilor de timp. Pe de altă parte, ARIMA (modele medii mobile integrate autoregresive) sunt folosite pentru a descrie serii temporale non-staționare. Box și Jenkins sugerează diferențierea unei serii temporale nestaționare pentru a obține o serie staționară la care se poate aplica un model ARMA. Seriile temporale nestaționare au o tendință pronunțată și nu au o medie sau o varianță constantă pe termen lung.

Box și Jenkins au propus o metodologie în trei etape care include: identificarea modelului, estimarea și validarea. Etapa de identificare implică identificarea dacă seria este staționară sau nu și prezența sezonalității prin examinarea diagramelor seriei, a funcțiilor de autocorelare și autocorelare parțială. În etapa de estimare, modelele sunt estimate utilizând serii temporale neliniare sau proceduri de estimare cu maximă probabilitate. În cele din urmă, etapa de validare implică verificarea diagnosticului, cum ar fi reprezentarea grafică a reziduurilor pentru a detecta valori aberante și dovezi de potrivire a modelului.

În ultimii ani, modelele serii temporale au devenit mai sofisticate și încearcă să modeleze heteroskedasticitatea condiționată cu modele precum ARCH (heteroskedasticitate condiționată autoregresivă) și GARCH (heteroskedasticitate condiționată autoregresivă generalizată) utilizate frecvent pentru seriile de timp financiare. În plus, modelele serii temporale sunt, de asemenea, folosite pentru a înțelege interrelațiile dintre variabilele economice reprezentate de sisteme de ecuații care utilizează VAR (autoregresia vectorială) și modelele VAR structurale.

Analiza supraviețuirii sau a duratei

Analiza supraviețuirii este un alt nume pentru analiza timp până la eveniment. Aceste tehnici au fost dezvoltate în primul rând în științele medicale și biologice, dar sunt utilizate pe scară largă în științele sociale, cum ar fi economia, precum și în inginerie (analiza de fiabilitate și timp de eșec).

Cenzura și non-normalitatea, care sunt caracteristice datelor de supraviețuire, generează dificultăți atunci când se încearcă analizarea datelor folosind modele statistice convenționale, cum ar fi regresia liniară multiplă. Distribuția normală, fiind o distribuție simetrică, ia atât valori pozitive, cât și negative, dar durata prin însăși natura sa nu poate fi negativă și, prin urmare, normalitatea nu poate fi presupusă când se lucrează cu date de durată/supraviețuire. Prin urmare, ipoteza de normalitate a modelelor de regresie este încălcată.

Presupunerea este că dacă datele nu ar fi cenzurate ar fi reprezentative pentru populația de interes. În analiza de supraviețuire, observațiile cenzurate apar ori de câte ori variabila dependentă de interes reprezintă timpul până la un eveniment terminal, iar durata studiului este limitată în timp.

Un concept important în analiza supraviețuirii este rata hazardului, definită ca probabilitatea ca evenimentul să se producă la momentul t condiționat de supraviețuirea până la momentul t. Un alt concept legat de rata hazardului este funcția de supraviețuire care poate fi definită ca probabilitatea de a supraviețui până la momentul t.

Majoritatea modelelor încearcă să modeleze rata hazardului alegând distribuția de bază în funcție de forma funcției de hazard. O distribuție a cărei funcție de hazard este înclinată în sus se spune că are dependență pozitivă de durată, un hazard în scădere arată dependență negativă de durată, în timp ce hazardul constant este un proces fără memorie, caracterizat de obicei de distribuția exponențială. Unele dintre opțiunile de distribuție din modelele de supraviețuire sunt: ​​F, gamma, Weibull, log normal, normal invers, exponențial etc. Toate aceste distribuții sunt pentru o variabilă aleatoare nenegativă.

Modelele de durată pot fi parametrice, neparametrice sau semiparametrice. Unele dintre modelele utilizate în mod obișnuit sunt modelul de hazard proporțional Kaplan-Meier și Cox (neparametric).

Arbori de clasificare și regresie (CART)

Analiza arborelui de clasificare la nivel global (GO-CTA) (numită și analiză discriminantă optimă ierarhică) este o generalizare a analizei discriminante optime care poate fi utilizată pentru a identifica modelul statistic care are acuratețe maximă pentru a prezice valoarea unei variabile dependente categoriale pentru un set de date format din variabile categorice și continue. Rezultatul HODA este un arbore non-ortogonal care combină variabile categorice și puncte de tăiere pentru variabile continue, care oferă o acuratețe predictivă maximă, o evaluare a ratei exacte de eroare de tip I și o evaluare a potențialei generalizări încrucișate a modelului statistic. Analiza discriminantă optimă ierarhică poate fi considerată ca o generalizare a analizei discriminante liniară a lui Fisher. Analiza discriminantă optimă este o alternativă la ANOVA (analiza varianței) și la analiza de regresie, care încearcă să exprime o variabilă dependentă ca o combinație liniară de alte caracteristici sau măsurători. Cu toate acestea, ANOVA și analiza de regresie dau o variabilă dependentă care este o variabilă numerică, în timp ce analiza discriminantă optimă ierarhică oferă o variabilă dependentă care este o variabilă de clasă.

Arborele de clasificare și regresie (CART) sunt o tehnică neparametrică de învățare a arborelui de decizie care produce fie arbori de clasificare, fie de regresie, în funcție de faptul că variabila dependentă este categorică sau, respectiv, numerică.

Arborii de decizie sunt formați dintr-o colecție de reguli bazate pe variabile din setul de date de modelare:

  • Regulile bazate pe valorile variabilelor sunt selectate pentru a obține cea mai bună împărțire pentru a diferenția observațiile pe baza variabilei dependente
  • Odată ce o regulă este selectată și împarte un nod în două, același proces este aplicat fiecărui nod „copil” (adică este o procedură recursivă)
  • Diviziunea se oprește atunci când CART detectează că nu se mai poate obține un câștig suplimentar sau sunt îndeplinite unele reguli de oprire prestabilite. (Ca alternativă, datele sunt împărțite cât mai mult posibil și apoi arborele este tăiat ulterior.)

Fiecare ramură a arborelui se termină într-un nod terminal. Fiecare observație se încadrează într-un singur și exact un nod terminal, iar fiecare nod terminal este definit în mod unic printr-un set de reguli.

O metodă foarte populară pentru analiza predictivă este pădurile aleatoare ale lui Leo Breiman.

Spline de regresie adaptivă multivariată

Spline de regresie adaptivă multivariată (MARS) este o tehnică neparametrică care construiește modele flexibile prin ajustarea regresiilor liniare pe bucăți.

Un concept important asociat cu spline de regresie este cel al unui nod. Nodul este locul în care un model de regresie local lasă loc altuia și, prin urmare, este punctul de intersecție dintre două spline.

În spline de regresie multivariate și adaptive, funcțiile de bază sunt instrumentul folosit pentru generalizarea căutării nodurilor. Funcțiile de bază sunt un set de funcții utilizate pentru a reprezenta informațiile conținute în una sau mai multe variabile. Modelul spline de regresie multivariată și adaptivă creează aproape întotdeauna funcțiile de bază în perechi.

Abordarea spline de regresie multivariată și adaptivă depășește în mod deliberat modelul și apoi se reduce pentru a ajunge la modelul optim. Algoritmul este foarte intens din punct de vedere computațional și, în practică, ni se cere să specificăm o limită superioară a numărului de funcții de bază.

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Analitica rețelelor sociale
Analitica rețelelor sociale

Descoperă puterea datelor și transformă modul în care înțelegi și utilizezi rețelele sociale.

Nu a fost votat 18.24 lei43.92 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Transformă-ți perspectiva asupra tehnologiei blockchain și începe să descoperi oportunitățile digitale de mâine!

Nu a fost votat 22.81 lei54.80 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Lucrul cu baze de date
Lucrul cu baze de date

Descoperă puterea bazelor de date cu acest ghid complet.

Nu a fost votat 18.24 lei36.52 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *