Importanța ANOVA
O utilizare mai importantă a distribuției F este în analiza varianței (ANOVA) pentru a vedea dacă trei sau mai multe eșantioane provin din populații cu medii egale. Acesta este un test statistic important, nu atât pentru că este folosit frecvent, cât pentru că este o punte între statisticile univariate și statisticile multivariate și pentru că strategia pe care o folosește este una care este utilizată în multe teste și proceduri multivariate.
ANOVA unidirecțională: toate aceste trei (sau mai multe) eșantioane provin din populații cu aceeași medie?
Acest lucru pare greșit – vom testa o ipoteză despre mijloace prin analizarea varianței. Nu este greșit, ci mai degrabă o perspectivă cu adevărat inteligentă pe care un statistician a avut-o cu ani în urmă. Această idee – privind varianța pentru a afla diferențele de medie – este baza pentru multe dintre statisticile multivariate folosite de cercetători astăzi. Ideile din spatele ANOVA sunt folosite atunci când căutăm relații între două sau mai multe variabile, motivul principal pentru care folosim statistici multivariate.
Testarea pentru a vedea dacă trei sau mai multe eșantioane provin din populații cu aceeași medie poate fi adesea un fel de exercițiu multivariat. Dacă cele trei eșantioane provin din trei fabrici diferite sau au fost supuse unor tratamente diferite, vedem efectiv dacă există o diferență în rezultate din cauza diferitelor procese sau tratamente – există o relație între proces (sau tratament) și rezultat?
Gândiți-vă la trei mostre. S-a colectat un grup de x și dintr-un motiv întemeiat (altul decât valoarea lor x) pot fi împărțite în trei grupuri. Aveți niște x din grupul (eșantionul) 1, unele din grupul (eșantionul) 2 și unele din grupul (eșantionul) 3. Dacă eșantioanele ar fi combinate, ați putea calcula o medie mare și o varianță totală în jurul acelei medii mari. De asemenea, puteți găsi media și varianța (eșantionului) în cadrul fiecăruia dintre grupuri. În cele din urmă, puteți lua cele trei medii de eșantion și puteți găsi varianța internă. ANOVA se bazează pe analiza de unde provine varianța totală. Dacă ați alege un x, sursa varianței sale, distanța sa față de media mare, ar avea două părți: (1) cât de departe este de media eșantionului său și (2) cât de departe este media eșantionului său de marea medie. Dacă cele trei eșantioane provin într-adevăr de la populații cu medii diferite, atunci pentru majoritatea x-urilor, distanța dintre media eșantionului și media mare va fi probabil mai mare decât distanța dintre x și media grupului său. Când aceste distanțe sunt adunate și transformate în varianțe, puteți vedea că, dacă mediile populației sunt diferite, este probabil ca varianța dintre mediile eșantionului să fie mai mare decât varianța din eșantioane.
Până la acest punct, nu ar trebui să vă surprindă să aflați că statisticienii au descoperit că, dacă trei sau mai multe eșantioane sunt prelevate dintr-o populație normală, iar varianța dintre eșantioane este împărțită la varianța din cadrul eșantioanelor, o distribuție de eșantionare formată făcând asta iar și iar va avea o formă cunoscută. În acest caz, va fi distribuit ca F cu m-1, n–m df, unde m este numărul de eșantioane și n este dimensiunea totală a m eșantioane. Diferența între se găsește prin:
sb2 = Σj=1mnj(xj – X)2/(m – 1)
unde xj este media eșantionului j și x este media mare.
Numărătorul varianței interne este suma pătratelor distanței dintre media eșantionului fiecărui x și media mare. Este pur și simplu o însumare a uneia dintre acele surse de variație în toate observațiile.
Varianța internă se găsește prin:
sw2 = Σj=1mΣi=1nj(xij – xj)2/(n – m)
Sumele duble trebuie tratate cu grijă. Mai întâi (operând pe interiorul sau pe cel de-al doilea semn de sumă) găsiți media fiecărui eșantion și suma pătratelor distanțelor fiecărui x din eșantion față de media acestuia. În al doilea rând (operând pe semnul sumei din exterior), se adună rezultatele de la fiecare dintre eșantioane.
Strategia pentru efectuarea unei analize unidirecționale a varianței este simplă. Adunați eșantioanele m. Calculați varianța dintre eșantioane, varianța în interiorul eșantioanelor și raportul dintre și în interior, obținând scorul F. Dacă scorul F este mai mic de unu, sau nu cu mult mai mare decât unu, varianța dintre eșantioane nu este mai mare decât varianța din cadrul eșantioanelor și eșantioanele provin probabil din populații cu aceeași medie. Dacă scorul F este mult mai mare decât unu, varianța internă este probabil sursa majorității varianței în eșantionul total, iar eșantioanele provin probabil din populații cu medii diferite.
Detaliile efectuării unei ANOVA unidirecționale se împart în trei categorii: (1) scrierea ipotezelor, (2) menținerea calculelor organizate și (3) utilizarea tabelelor F. Ipoteza nulă este că toate mediile populației sunt egale, iar alternativa este că nu toate mediile sunt egale. Destul de des, deși sunt cu adevărat necesare două ipoteze pentru a fi complet, doar Ho este scris:
H0 : m1 = m2 = … = mm
Menținerea calculelor organizate este importantă atunci când găsiți varianța internă. Amintiți-vă că varianța internă este găsită prin ridicarea la pătrat și apoi însumarea distanței dintre fiecare observație și media eșantionului său. Deși diferiți oameni fac calculele în mod diferit, consider că cea mai bună modalitate de a menține totul bine este să găsim mediile eșantionului, să găsim distanțele pătrate în fiecare dintre eșantioane și apoi să le adunăm. De asemenea, este important să păstrăm calculele organizate în calculul final al scorului F. Dacă vă amintiți că scopul este să vedem dacă variamța dintre acestea este mare, atunci este ușor să ne amintim să împărțim variația între ele după variația internă.
Utilizarea tabelelor F este al treilea detaliu. Amintiți-vă că tabelele F sunt tabele cu o singură coadă și că ANOVA este un test cu o singură coadă. Deși ipoteza nulă este că toate mediile sunt egale, testați acea ipoteză, văzând dacă varianța internă este mai mică sau egală cu varianșa internă. Numărul de grade de libertate este m-1, n–m, unde m este numărul de eșantioane și n este dimensiunea totală a tuturor eșantioanelor împreună.
Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0
© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu
Lasă un răspuns