Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Corelația și covarianța în statistică

Corelația și covarianța în statistică

Corelația dintre două variabile este importantă în statistică și este raportată în mod obișnuit. Ce este corelația? Semnificația corelației poate fi descoperită privind îndeaproape la cuvânt – este aproape co-relație și asta înseamnă: cum două variabile sunt co-legate. Corelația este, de asemenea, strâns legată de regresie. Covarianța dintre două variabile este, de asemenea, importantă în statistică, dar este rar raportată. Semnificația sa poate fi descoperită, de asemenea, privind îndeaproape la cuvânt – este co-varianță, modul în care două variabile variază împreună. Covarianța joacă un rol în spatele scenei în statisticile multivariate. Deși nu veți vedea covarianța raportată foarte des, înțelegerea acesteia vă va ajuta să înțelegeți statisticile multivariate, cum ar fi înțelegerea varianței, vă ajută să înțelegeți statisticile univariate.

Există două moduri de a privi corelația. Primul decurge direct din regresie, iar al doilea din covarianță. Deoarece tocmai ați învățat despre regresie, este logic să începeți cu această abordare.

Corelația se măsoară cu un număr între -1 și +1 numit coeficient de corelație. Coeficientul de corelație al populației este de obicei scris ca grecescul ro, ρ, iar coeficientul de corelație al eșantionului ca r. Dacă aveți o ecuație de regresie liniară cu o singură variabilă explicativă, semnul coeficientului de corelație arată dacă panta dreptei de regresie este pozitivă sau negativă, în timp ce valoarea absolută a coeficientului arată cât de aproape de linia de regresie se află punctele. Dacă ρ este +0,95, atunci linia de regresie are o pantă pozitivă și punctele din populație sunt foarte aproape de dreapta de regresie. Dacă r este -0,13, atunci linia de regresie are o pantă negativă și punctele din eșantion sunt împrăștiate departe de dreapta de regresie. Dacă ridicați la pătrat r, veți obține R2, care este mai mare dacă punctele din eșantion se află foarte aproape de dreapta de regresie, astfel încât regresia sumei pătratelor este aproape de suma totală a pătratelor.

Cealaltă abordare pentru explicarea corelației necesită înțelegerea covarianței, a modului în care două variabile variază împreună. Deoarece covarianța este o statistică multivariată, măsoară ceva despre un eșantion sau o populație de observații în care fiecare observație are două sau mai multe variabile. Gândiți-vă la o populație de perechi (x,y). Mai întâi găsiți media lui x și media lui y, μx și μy. Apoi, pentru fiecare observație, găsiți (x – μx)(y – μy). Dacă x și y din această observație sunt ambele mult peste mediile lor, atunci acest număr va fi mare și pozitiv. Dacă ambele sunt cu mult sub mediile lor, va fi, de asemenea, mare și pozitivă. Dacă ați găsit Σ(x – μx)(y – μy), ar fi mare și pozitiv dacă x și y se mișcă în sus și în jos împreună, astfel încât x mari să meargă cu y mari, x mici cu y mici și x medii merge cu y medii. Cu toate acestea, dacă unele dintre x-urile mari merg cu y medii etc., atunci suma va fi mai mică, deși probabil încă pozitivă. Un Σ(x – μx)(y – μy) implică faptul că x-urile de deasupra μx sunt, în general, asociate cu y-urile de deasupra μy, iar acele x-uri sub medie sunt în general asociate cu y-urile sub media lor. După cum puteți vedea, suma este o măsură a modului în care x și y variază împreună. Cu cât x similare sunt mai des asociate cu y similare, cu atât x și y variază mai mult împreună și cu atât suma și covarianța sunt mai mari. Termenul pentru o singură observație, (x – μx)(y – μy), va fi negativ atunci când x și y sunt pe laturile opuse ale mediilor lor. Dacă x mari sunt de obicei asociate cu y mici și invers, majoritatea termenilor vor fi negativi, iar suma va fi negativă. Dacă cei mai mari x sunt împerecheați cu cei mai mici y și cei mai mici x cu cei mai mari y, atunci multe dintre (x – μx)(y – μy) vor fi mari și negative, la fel și suma. O populație cu mai mulți membri va avea o sumă mai mare pur și simplu pentru că sunt mai mulți termeni de adunat, așa că împărțiți suma la numărul de observații pentru a obține măsura finală, covarianța sau cov:

cov populației = Σ(x – μx)(y – μy)/(N)

Maximul pentru covarianță este produsul abaterilor standard ale valorilor x și valorilor y, σxσy. În timp ce să demonstrați că maximul este exact egal cu produsul abaterilor standard este complicat, ar trebui să puteți vedea că cu cât punctele sunt mai răspândite, cu atât covarianța poate fi mai mare. Până acum ar trebui să înțelegeți că o abatere standard mai mare înseamnă că punctele sunt mai răspândite, deci ar trebui să înțelegeți că un σx mai mare sau un σy mai mare va permite o covarianță mai mare.

Covarianța eșantionului este măsurată în mod similar, cu excepția faptului că suma este împărțită la n-1, astfel încât covarianța eșantionului este un estimator imparțial al covarianței populației:

cov eșantionului = Σ(x – μx)(y – μy)/(n – 1)

Corelația pur și simplu compară covarianța cu abaterile standard ale celor două variabile. Folosind formula pentru corelarea populației:

ρ = cov/ρxρy

sau

ρ = (Σ(x – μx)(y – μy)/N)/(Σ(x – μx)2/N ∙ Σ(y – μy)2/N)

La maxim, valoarea absolută a covarianței este egală cu produsul abaterilor standard, deci la maxim, valoarea absolută a lui r va fi 1. Deoarece covarianța poate fi negativă sau pozitivă, în timp ce abaterile standard sunt întotdeauna pozitive, r poate fi fie negativ, fie pozitiv. Punând împreună aceste două aspecte, puteți vedea că r va fi între -1 și +1. Semnul depinde de semnul covarianței, iar valoarea absolută depinde de cât de aproape este covarianța de maxim. Covarianța crește pe măsură ce relația dintre x și y devine mai puternică, astfel încât o relație puternică între x și y va avea ca rezultat r să aibă o valoare apropiată de -1 sau +1.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2022 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Termenul megadate (Big Data, date masive) este adesea folosit în mod vag pentru a desemna paleta de algoritmi, tehnologii și sisteme utilizate pentru colectarea datelor de volum și varietate fără precedent și extragerea de valoare din acestea prin calculul masiv … Citeşte mai mult

Nu a fost votat $3,99$5,99 Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile
Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2,99$6,88 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *