Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Statistica, distribuția t: Testarea unui nou eșantion dacă provine sau nu din populația inițială

Statistica, distribuția t: Testarea unui nou eșantion dacă provine sau nu din populația inițială

Imaginați-vă că ați luat toate eșantioanele cu n=10 dintr-o populație pentru care știați media, ați găsit distribuția t pentru 9 df calculând un scor t pentru fiecare eșantion și ați generat o distribuție relativă a frecvenței t-urilor. . Când ați terminat, cineva v-a adus un alt eșantion (n=10) întrebându-se dacă acel eșantion nou provine din populația inițială. Puteți utiliza distribuția de eșantionare a lui t pentru a testa dacă noul eșantion provine sau nu din populația inițială. Pentru a efectua testul, mai întâi formulați ipoteza că noul eșantion provine din populația inițială. Cu această ipoteză, ați emis o valoare pentru μ, media populației originale, pe care să o utilizați pentru a calcula un scor t pentru noul eșantion. Dacă t pentru noul eșantion este aproape de zero – dacă scorul t pentru noul eșantion ar fi putut veni cu ușurință de la mijlocul distribuției t pe care ați generat-o – ipoteza dvs. că noul eșantion provine dintr-o populație cu media ipotetică pare rezonabil și puteți concluziona că datele susțin noul eșantion provenit din populația inițială. Dacă scorul t din noul eșantion este mult peste sau mult sub zero, ipoteza dvs. că acest eșantion nou provine din populația inițială pare puțin probabil să fie adevărată, deoarece câteva eșantioane din populația inițială ar avea scoruri t departe de zero. În acest caz, concluzionați că datele susțin ideea că noul eșantion provine dintr-o altă populație.

Aceasta este metoda de bază de utilizare a acestui test t. Emiteți ipoteza asupra mediei populației din care credeți că ar putea proveni un eșantion. Folosind această medie, calculați scorul t pentru eșantion. Dacă scorul t este aproape de zero, concluzionați că ipoteza dvs. a fost probabil corectă și că cunoașteți media populației din care provine eșantionul. Dacă scorul t este departe de zero, concluzionați că ipoteza dvs. este incorectă și eșantionul provine dintr-o populație cu o medie diferită.

Odată ce înțelegeți elementele de bază, detaliile pot fi completate. Detaliile efectuării unui test de ipoteză a mediei populației – testarea pentru a vedea dacă un eșantion provine dintr-o populație cu o anumită medie – sunt de două tipuri. Primul tip se referă la modul de a face toate acestea în limbajul formal al statisticienilor. Al doilea tip de detaliu este modul de a decide ce interval de scoruri t implică faptul că noul eșantion provine din populația originală.

Ar trebui să vă amintiți din ultimul capitol că limbajul formal al testării ipotezelor necesită întotdeauna două ipoteze. Prima ipoteză se numește ipoteza nulă, de obicei notă Ho. Se precizează că nu există nicio diferență între media populației din care este extras eșantionul și media ipotetică. A doua este ipoteza alternativă, notată Ha sau H1. Se precizează că media populației din care provine eșantionul este diferită de valoarea ipotetică. Dacă întrebarea dvs. este „acest eșantion provine dintr-o populație cu această medie?”, Ha devine pur și simplu μ ≠ valoarea ipotezată. Dacă întrebarea dvs. este „acest eșantion provine dintr-o populație cu o medie mai mare decât o anumită valoare”, atunci Ha devine μ > valoarea ipotezată.

Celălalt detaliu este să decideți cât de „aproape de zero” trebuie să fie scorul t al eșantionului înainte de a concluziona că ipoteza nulă este probabil corectă. Cât de aproape de zero trebuie să fie scorul t al eșantionului înainte de a ajunge la concluzia că suportul de date Ho depinde de df și de cât de mare șansa vreți să luați pentru o greșeală. Dacă decideți să concluzionați că eșantionul provine dintr-o populație cu media ipotetică doar dacă eșantionul t este foarte, foarte aproape de zero, există multe eșantioane de fapt din populație care vor avea scoruri t care v-ar face să credeți că provin dintr-o populație cu o altă medie — ar fi ușor să greșim și să concluzionați că aceste eșantioane provin dintr-o altă populație. Pe de altă parte, dacă decideți să acceptați ipoteza nulă chiar dacă scorul t al eșantionului este destul de departe de zero, rareori veți face greșeala de a concluziona că un eșantion din populația inițială este dintr-o altă populație, dar veți face face adesea o altă greșeală – concluzionarea că eșantioanele din alte populații sunt din populația originală. Nu există reguli stricte pentru a decide cât de mult să luați în considerare din o anume șansă . Deoarece există un compromis între șansa de a face cele două greșeli diferite, cantitatea adecvată de risc de asumat va depinde de costurile relative ale celor două greșeli. Deși nu există o bază solidă pentru a face acest lucru, mulți cercetători folosesc o șansă de 5% pentru primul tip de greșeală ca implicită. Nivelul de șansă de a face prima eroare se numește de obicei alfa (α), iar valoarea alfa aleasă este de obicei scrisă ca o fracție zecimală – considerarea unei șanse de 5% de a face prima greșeală ar fi indicată ca α. Dacă aveți îndoieli, utilizați α.

Dacă ipoteza dvs. alternativă este nu este egal cu, veți concluziona că datele suportă Ha dacă scorul t al eșantionului este fie mult sub, fie mult peste zero și trebuie să împărțiți α între cele două cozi ale distribuției t. Dacă doriți să utilizați α=0,05, veți sprijini Ha dacă t este fie în cel mai mic 0,025, fie în cel mai mare 0,025 al distribuției. Dacă alternativa dvs. este mai mare decât, veți concluziona că datele acceptă Ha numai dacă scorul t al eșantionului este mult peste zero. Așadar, puneți tot α în coada dreaptă. În mod similar, dacă alternativa dvs. este mai mică decât, puneți întregul α în coada din stânga.

Tabelul în sine poate fi confuz chiar și după ce știți câte grade de libertate aveți și dacă doriți să împărțiți α între cele două cozi sau nu. Și mai confuz, nu toate tabelele t arată exact la fel. Priviți un tabel tipic t și veți observa că are trei părți: titluri de coloane ale fracțiilor zecimale, titluri de rând ale numerelor întregi și un corp de numere, în general, cu valori între 1 și 3. Titlurile coloanelor sunt etichetate p sau zona din coada dreaptă și uneori α. Titlurile rândurilor sunt etichetate df, dar uneori sunt etichetate ν sau grade de libertate. Corpul este de obicei lăsat neetichetat și arată scorul t care corespunde α și gradele de libertate ale acelei coloane și rând. Aceste tabele sunt configurate pentru a fi utilizate pentru o serie de teste statistice diferite, astfel încât sunt prezentate într-un mod care reprezintă un compromis între ușurința de utilizare într-o anumită situație și capacitatea de utilizare pentru o mare varietate de teste. Folosind tabelul t interactiv împreună cu distribuția t furnizată în Figura 5.1, veți învăța cum să utilizați alte tabele similare în orice manual. Acest șablon conține două foi. Într-o foaie veți vedea diagrama distribuției t, unde puteți introduce df și vă puteți alege nivelul în celulele galbene. Zona umbrită în roșu a cozii superioare a distribuției se va ajusta automat. Alternativ, puteți merge la următoarea foaie, unde veți avea acces la versiunea completă a tabelului t. Pentru a găsi coada superioară a distribuției t, introduceți nivelul df și α în celulele galbene. Zona umbrită în roșu de pe grafic se va ajusta automat, indicând coada superioară asociată a distribuției t.

Pentru a utiliza tabelul pentru a testa dacă „acest eșantion provine dintr-o populație cu o anumită medie”, alegeți α și găsiți numărul de grade de libertate. Numărul de grade de libertate dintr-un test care implică o medie a unui eșantion este pur și simplu dimensiunea eșantionului minus unu (df = n-1). Este posibil ca α pe care îl alegeți să nu fie α din antetul coloanei. Titlurile coloanelor arată zonele de coadă din dreapta – șansa de a obține un scor t mai mare decât cel din corpul tabelului. Să presupunem că ați avut un eșantion cu zece membri și ați ales α = 0,05. Există nouă grade de libertate, așa că treceți pe rândul 9 df la coloana 0,025, deoarece acesta este un test cu două cozi și găsiți scorul t de 2,262. Aceasta înseamnă că în orice distribuție de eșantionare a scorurilor t, cu eșantioane de zece extrase dintr-o populație normală, doar 2,5% (0,025) dintre eșantioane ar avea scoruri t mai mari de 2,262 – orice scor t mai mare de 2,262 probabil apare deoarece eșantionul provine dintr-o altă populație cu o medie mai mare. Deoarece distribuțiile t sunt simetrice, este de asemenea adevărat că doar 2,5% din eșantioanele de zece extrase dintr-o populație normală vor avea scoruri t mai mici de -2,262. Punând cele două împreună, 5% din scorurile t vor avea o valoare absolută mai mare decât 2,262. Deci, dacă alegeți α=0,05, probabil că veți folosi un scor t în coloana 0,025. Imaginea care se află în partea de sus a majorității tabelelor t arată ce se întâmplă. Priviți-l când aveți dubii.

LaTonya Williams este managerul fabricii pentru Eileen’s Dental Care Company (EDC), care produce ață dentară în Toronto, Ontario. EDC are o forță de muncă bună și stabilă de muncitori semicalificați care ambalează ață dentară și sunt plătiți la bucată. Compania dorește să se asigure că acești lucrători sunt plătiți mai mult decât salariul mediu local. Un raport recent al Camerei de Comerț locală arată un salariu mediu pentru operatorii de mașini de 11,71 USD pe oră. LaTonya trebuie să decidă dacă este nevoie de o mărire de salariu pentru a-și menține angajații peste medie. Ea ia un eșantion de muncitori, le extrage rapoartele de muncă, găsește cât a câștigat fiecare săptămâna trecută și le împarte câștigurile la orele pe care le-au lucrat pentru a găsi câștigul mediu pe oră. Aceste date apar în Tabelul 5.1.

Lucrător Salariu (dolari/oră)
Smith 12,65
Wilson 12,67
Peterson 11,9
Jones 10,45
Gordon 13,5
McCoy 12,95
Bland 11,77

Tabelul 5.1 Eșantion de salariu orar plătit la compania EDC

LaTonya vrea să testeze pentru a vedea dacă media câștigurilor orare medii ale lucrătorilor ei este mai mare de 11,71 USD. Ea vrea să folosească un test cu o singură coadă, deoarece întrebarea ei este mai mare decât nu diferit de. Ipotezele ei sunt:

H0 : μ ≤ 11,71 USD

și

Ha : μ > 11,71 USD

Așa cum este de obicei în acest tip de situație, LaTonya speră că datele îl susțin pe Ha, dar vrea să fie sigură că o face înainte de a decide că lucrătorii ei câștigă salarii peste medie. Amintiți-vă că va calcula un scor t pentru eșantionul ei folosind 11,71 USD pentru μ. Dacă scorul ei este negativ sau aproape de zero, ea va concluziona că datele susțin Ho. Numai dacă scorul ei este mare și pozitiv va merge cu Ha. Ea decide să folosească α=0,025 pentru că nu este dispusă să-și asume prea mult risc să spună că lucrătorii câștigă salarii peste medie atunci când chiar nu o fac. Deoarece eșantionul ei are n=7, ea are 6 df. Privind la tabel, ea vede că datele vor sprijini Ha, lucrătorii câștigă mai mult decât media, doar dacă scorul t al eșantionului este mai mare de 2,447.

Găsind media eșantionului și abaterea standard, x = 10,83 USD și s = 0,749 USD, LaTonya calculează scorul t al eșantionului:

t = (x – μ)/(s/√n) –  (10,83 – 11,71)/(0,749/√7) = 1,48

Deoarece eșantionul ei t nu este mai mare de +2,447, H0 nu este respins, ceea ce indică faptul că LaTonya ajunge la concluzia că va trebui să majoreze ratele la bucată plătite de EDC pentru a fi cu adevărat sigură că câștigurile medii pe oră sunt peste salariul mediu local.

Dacă LaTonya ar fi vrut pur și simplu să știe dacă lucrătorii EDC câștigau la fel ca alți muncitori din zonă, ar fi folosit un test cu două cozi. În acest caz, ipotezele ei ar fi fost:

H0 : μ = 11,71 USD

și

Ha : μ ≠ 11,71 USD

Folosind α=.10, LaTonya ar împărți 0,10 între cele două cozi, deoarece datele suportă Ha dacă scorul t al eșantionului este fie mare și negativ, fie mare și pozitiv. Aritmetica ei este aceeași, scorul t al eșantionului este încă 1,41, dar acum va decide că datele acceptă Ha numai dacă este în afara ±1,943. În acest caz, LaTonya va respinge din nou H0 și va concluziona că lucrătorii EDC nu câștigă la fel ca alți lucrători din zonă.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *