Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Statistică: Testul F dacă două eșantioane provin din populații cu aceeași varianță

Statistică: Testul F dacă două eșantioane provin din populații cu aceeași varianță

Deoarece distribuția F este generată prin extragerea a două eșantioane din aceeași populație normală, poate fi utilizată pentru a testa ipoteza că două eșantioane provin din populații cu aceeași varianță. Veți avea două mostre (unul de dimensiunea n1 și unul de dimensiunea n2) și varianța eșantionului din fiecare. Evident, dacă cele două variații sunt foarte aproape de a fi egale, cele două eșantioane ar fi putut proveni cu ușurință din populații cu varianțe egale. Deoarece statistica F este raportul dintre două variații ale eșantionului, atunci când cele două variații ale eșantionului sunt aproape egale, scorul F este aproape de unu. Dacă calculați scorul F și este aproape de unu, acceptați ipoteza dvs. că eșantioanele provin din populații cu aceeași varianță.

Aceasta este metoda de bază a testului F. Emiteți ipoteza că eșantioanele provin din populații cu aceeași varianță. Calculați scorul F prin găsirea raportului dintre variațiile eșantionului. Dacă scorul F este aproape de unu, concluzionați că ipoteza dvs. este corectă și că eșantioanele provin chiar din populații cu varianțe egale. Dacă scorul F este departe de unu, atunci trageți concluzia că populațiile au probabil varianțe diferite.

Metoda de bază trebuie să fie completată cu câteva detalii dacă intenționați să utilizați acest test la locul de muncă. Există două seturi de detalii: în primul rând, scrierea formală a ipotezelor și, în al doilea rând, utilizarea tabelelor de distribuție F, astfel încât să puteți spune dacă scorul dvs. F este aproape de unu sau nu. Formal, sunt necesare două ipoteze pentru a fi completă. Prima este ipoteza nulă că nu există nicio diferență (deci nulă). Este de obicei notată ca Ho. A doua este că există o diferență și se numește alternativă și se notează H1 sau Ha.

Folosirea tabelelor F pentru a decide cât de aproape de unu este suficient de aproape pentru a accepta ipoteza nulă (statisticienii cu adevărat formali ar spune „nu reușesc să respingă nulul”) este destul de complicată, deoarece tabelele de distribuție F sunt destul de complicate. Înainte de a utiliza tabelele, cercetătorul trebuie să decidă câte șanse este dispus să asume ca nulul să fie respins atunci când este cu adevărat adevărat. Alegerea obișnuită este de 5 la sută sau, după cum spun statisticienii, ”α – 0,05”. Dacă se dorește o șansă mai mică sau mai mare, α poate fi variată. Alegeți-vă α și mergeți la tabelele F. Mai întâi observați că există un număr de tabele F, unul pentru fiecare dintre mai multe niveluri diferite de α (sau cel puțin un tabel pentru fiecare două α cu valorile F pentru un α în caractere aldine și valorile pentru celălalt în scriere obișnuită). Există rânduri și coloane pe fiecare tabel F și ambele sunt pentru diferite grade de libertate. Deoarece sunt luate două eșantioane separate pentru a calcula un scor F și eșantioanele nu trebuie să aibă aceeași dimensiune, există două grade de libertate separate – unul pentru fiecare probă. Pentru fiecare eșantion, numărul de grade de libertate este n-1, cu unul mai mic decât dimensiunea eșantionului. Mergând la tabel, cum decideți ce grade de libertate ale eșantionului (df) sunt pentru rând și care sunt pentru coloană? Deși ați putea pune oricare dintre ele în oricare dintre locuri, puteți economisi un pas dacă puneți eșantionul cu varianța mai mare (nu neapărat eșantionul mai mare) la numărător, iar apoi df-ul eșantionului determină coloana, iar df-ul celuilalt eșantion determină rândul. Motivul pentru care acest lucru vă scutește de un pas este că tabelele arată doar valorile lui F care lasă α în coada din dreapta unde F > 1, imaginea din partea de sus a majorității tabelelor F arată asta. Găsirea valorii F critice pentru cozile din stânga necesită un alt pas, care este subliniat în șablonul interactiv Excel din Figura 6.1. Pur și simplu schimbați gradele de libertate la numărător și numitor  și α în coada dreaptă a distribuției F în celulele galbene.

Un element interactiv sau media a fost exclus din această versiune a textului. Îl puteți vizualiza online aici: https://www.telework.ro/wp-content/uploads/2022/01/Chapter-6_Fig-6.1_Tabel_F.xlsx

Șablon interactiv Excel al unui tabel F (Șablon interactiv Excel al unui tabel F)

Tabelele F sunt practic întotdeauna tipărite ca tabele cu o singură coadă, arătând valoarea critică  F care separă coada dreaptă de restul distribuției. În majoritatea aplicațiilor statistice ale distribuției F, doar coada dreaptă este de interes, deoarece majoritatea aplicațiilor testează pentru a vedea dacă varianța dintr-o anumită sursă este mai mare decât varianța dintr-o altă sursă, astfel încât cercetătorul este interesat să afle dacă scorul F este mai mare de unu. În testul varianțelor egale, cercetătorul este interesat să afle dacă scorul F este aproape de unu, astfel încât fie un scor F mare, fie un scor F mic l-ar determina pe cercetător să concluzioneze că variațiile nu sunt egale. Deoarece valoarea critică F care separă coada stângă de restul distribuției nu este tipărită, și nu pur și simplu negativul valorii tipărite, cercetătorii deseori împart pur și simplu varianța mai mare a eșantionului la variația mai mică a eșantionului și folosesc tabelele tipărite pentru a vedea dacă coeficientul este „mai mare decât unu”, aducând efectiv testul într-un format cu o singură coadă. Pentru puriști, și în situații ocazionale, valoarea critică din coada stângă poate fi calculată destul de ușor.

Valoarea critică din coada stângă pentru x, y grade de libertate (df) este pur și simplu inversul valorii critice din coada dreaptă (tabel) pentru y, x df. Privind un tabel F, ați vedea că valoarea F care lasă α – 0,05 este coada din dreapta atunci când sunt 10, 20 df este F=2,35. Pentru a găsi valoarea F care lasă α – 0,05 în coada stângă cu 10, 20 df, căutați F=2,77 pentru α – 0,05, 20, 10 df. Împărțiți unul la 2,77, obținând 0,36. Aceasta înseamnă că 5% din distribuția F pentru 10, 20 df este sub valoarea critică de 0,36 și 5% este peste valoarea critică de 2,35.

Punând toate acestea împreună, iată cum să efectuați testul pentru a vedea dacă două eșantioane provin din populații cu aceeași varianță. În primul rând, colectați două mostre și calculați varianța eșantionului pentru fiecare, s12 și s22. În al doilea rând, scrieți-vă ipotezele și alegeți α . În al treilea rând, găsiți scorul F din eșantioanele dvs., împărțind s2 mai mare la cel mai mic, astfel încât F > 1. În al patrulea rând, mergeți la tabele, găsiți tabelul pentru α/2 și găsiți scorul F critic (tabelul) pentru gradele adecvate de libertate (n-1 și n-1). Comparați-l cu scorul F al mostrelor. Dacă F al eșantioanelor este mai mare decât F critic, F al eșantioanelor nu este „aproape de unu”, și Ha varianțele populației nu sunt egale, este cea mai bună ipoteză. Dacă F al eșantioanelor este mai mic decât F critic, Ho, varianțele populației sunt egale, ar trebui acceptat.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile
Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat $2,99$5,07 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.