Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Statistică: Test t pentru a verifica dacă două eșantioane provin din populații cu aceeași medie

Statistică: Test t pentru a verifica dacă două eșantioane provin din populații cu aceeași medie

Una dintre statistici care are o distribuție de eșantionare care urmează distribuția t este diferența dintre două medii de eșantionare. Dacă eșantioane de o dimensiune (n1) sunt prelevate dintr-o populație normală și eșantioane de altă dimensiune (n2) sunt prelevate dintr-o altă populație normală (și populațiile au aceeași abatere standard), atunci o statistică bazată pe diferența dintre mediile eșantionului și diferența dintre mediile populației este distribuită ca t cu n1 + n2 – 2 grade de libertate. Aceste eșantioane sunt independente deoarece membrii dintr-un eșantion nu afectează membrii din celălalt eșantion. Puteți alege mostrele independent una de alta, iar cele două mostre nu trebuie să aibă aceeași dimensiune. Statistica t este:

t = ((x1 – x2) – (μ1 – μ2))/√(s2/n1 + s2/n2)

unde

xi = media eșantionului i

μi = media populației i

s2 = varianța combinată

ni = dimensiunea eșantionului i

Cazul obișnuit este de a testa pentru a vedea dacă eșantioanele provin din populații cu aceeași medie, cazul în care (μ1 – μ2) = 0. Varianta combinată este pur și simplu o medie ponderată a celor două variații ale eșantionului, cu ponderile bazate pe dimensiunile eșantionului. Aceasta înseamnă că va trebui să calculați varianța comună înainte de a calcula scorul t. Formula pentru varianța combinată este:

s2 = ((n1 – 1)s12 + (n2 – 1)s22)/(n1 + n2 – 2)

Pentru a utiliza scorul t al variației cumulate, este necesar să presupunem că cele două populații au varianțe egale. Dacă vă întrebați de ce statisticienii fac o presupunere puternică pentru a utiliza o formulă atât de complicată, este pentru că formula care nu are nevoie de asumarea variațiilor egale este și mai complicată și reduce gradele de libertate în statistica finală. În orice caz, cu excepția cazului în care aveți eșantioane mici, volumul de aritmetică necesară preupune că probabil veți dori să utilizați un pachet de software statistic pentru acest test. De asemenea, trebuie să rețineți că puteți testa pentru a vedea dacă două eșantioane provin de la populații care se află la orice distanță ipotetică, setând (μ1 – μ2) egală cu acea distanță.

Într-un raport publicat într-un număr din 2001 al revistei University Affairs (Frank, T. (2001, February). New study says grades are inflated at Ontario universities. University Affairs, 29.), Frank a susținut că cercetătorii au descoperit o scădere a numărului de studenți care obțin note mici la majoritatea cursurilor și o creștere a numărului de studenți care obțin note mari. Această problemă este cunoscută și sub numele de inflație de grad. Nora Alston conduce Departamentul de Economie de la Oaks College, iar decanul i-a trimis o copie a raportului cu o notă atașată în care spune: „Este adevărat aici la Oaks? Să-mi dai de veste.” Dr. Alston nu este sigur dacă decanul ar fi mai fericit dacă notele la economie ar fi mai mari sau mai mici decât la alte clase, dar raportul susține că notele la economie sunt mai mici. Prima ei oprire este în biroul grefierului.

Ea îl pune pe funcționarul din acel birou să aleagă un eșantion de 10 rapoarte de clasă din întreaga facultate, răspândite în ultimele trei semestre. Solicită, de asemenea, funcționarului să aleagă un eșantion de 10 rapoarte pentru orele de economie. Ajunge cu un total de 38 de note pentru orele de economie și 51 de note pentru alte clase. Ipotezele ei sunt:

H0: μecon – μalte ≥ 0

Ha: μecon – μalte < 0

Ea decide să folosească α = 0,05 USD.

Acestea sunt o mulțime de date și dr. Alston știe că va dori să folosească computerul pentru a o ajuta. Ea a crezut inițial că va folosi o foaie de calcul pentru a găsi mediile și variațiile eșantionului, dar după ce s-a gândit un minut, a decis să folosească un pachet de software statistic. Cel cu care este cel mai familiarizată se numește SAS. A încărcat SAS pe computerul ei, a introdus datele și a dat comenzile SAS adecvate. Computerul i-a oferit rezultatul prezentat în Tabelul 5.3.

Tabelul 5.3 Rezultatul software al sistemului SAS pentru studiul de calificare al Dr. Alston
Procedura TTFST
Variabila: GRADE
Dept N Media Dev Eroarea std Minimum Maximum
Econ 38 2.28947 1.01096 .16400 0 4.00000
Varianța t df Prob>[t]
Inegal -2.3858 85.1 .0193
Egal -2.3345 87.0 .0219
For Ho: Varianțele sunt egale, f=1.35, df[58.37], Prob>f=.3485

Dr. Alston are 87 df și a decis să folosească un test cu o singură coadă, coadă stângă cu α = 0,05 USD. Ea merge la tabelul ei și constată că 87 df nu apare, tabelul sărind de la 60 la 120 df. Sunt două lucruri pe care le-ar putea face. Ea ar putea încerca să interpoleze scorul t care lasă 0,05 în coadă cu 87 df, sau ar putea alege între valoarea t pentru 60 și 120 într-o manieră conservatoare. Utilizarea alegerii conservatoare este cea mai bună abordare inițială și, uitându-se la tabelul ei, ea vede că pentru 60 df 0,05 din scorurile t sunt mai mici de -1,671, iar pentru 120 df, 0,05 sunt mai mici de -1,658. Ea nu dorește să concluzioneze că datele susțin că notele economice sunt mai mici decât dacă scorul t al eșantionului ei este departe de zero, așa că decide că va accepta Ha dacă eșantionul ei t este la stânga de -1,671. Dacă proba ei t se întâmplă să fie între -1,658 și -1,671, va trebui să interpoleze.

Privind rezultatul SAS, dr. Alston vede că scorul său t pentru formula varianțelor egale este -2,3858, ceea ce este mult sub -1,671. Ea ajunge la concluzia că îi va spune decanului că notele la economie sunt mai mici decât cele din altă parte la Oaks College.

Observați că SAS oferă, de asemenea, scorul t și df pentru cazul în care nu sunt presupuse variații egale în linia inegală. SAS oferă, de asemenea, o valoare p, dar este pentru un test cu două cozi, deoarece oferă probabilitatea ca un t cu o valoare absolută mai mare, >|T|, să apară. Fiți atenți când utilizați valorile p din software: observați dacă acestea sunt valori p cu o coadă sau două cozi înainte de a face raportul.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.