Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Statistici: Compararea locațiilor unor populații – Testul U Mann-Whitney

Statistici: Compararea locațiilor unor populații – Testul U Mann-Whitney

Cu testul t se verifică dacă două eșantioane provin din populații cu aceeași medie. Dacă eșantioanele dumneavoastră sunt mici și nu sunteți sigur dacă populațiile inițiale sunt normale sau dacă datele dumneavoastră nu măsoară intervale, nu puteți utiliza acel test t deoarece scorurile t ale eșantionului nu vor urma distribuția de eșantionare din tabelul t . Deși există două probleme de date diferite care vă împiedică să utilizați testul t, soluția pentru ambele probleme este aceeași, testul U non-parametric Mann-Whitney. Ideea de bază din spatele testului este de a pune eșantioanele împreună, de a clasifica membrii eșantionului combinat și apoi de a vedea dacă cele două eșantioane sunt amestecate împreună în clasamentul comun.

Odată ce aveți o singură listă clasată care conține membrii ambelor eșantioane, sunteți gata să efectuați un test U Mann-Whitney. Acest test se bazează pe o idee simplă. Dacă prima parte a clasamentului combinat este formată în mare parte din membri dintr-un eșantion, iar ultima parte este formată în mare parte din membri din celălalt eșantion, atunci cele două eșantioane sunt probabil din populații cu medii diferite și, prin urmare, locații diferite. Puteți testa pentru a vedea dacă membrii unui eșantion sunt grupați sau răspândiți prin rânduri, adunând rândurile fiecăruia dintre cele două grupuri și comparând sumele. Dacă aceste sume de rang sunt aproximativ egale, cele două grupuri sunt amestecate. Dacă sumele acestor ranguri sunt departe de a fi egale, fiecare dintre eșantioane este grupat la începutul sau la sfârșitul clasamentului general.

Willy lucrează pentru o companie de consultanță în imigrare din Ottawa, care îi ajută pe noii imigranți care aplică în cadrul Programului pentru investitori imigranți (IIP) al guvernului federal canadian. IIP facilitează procesul de imigrare pentru cei care aleg să locuiască în orașe mici. Compania l-a însărcinat pe Willy să înființeze un nou birou într-o locație apropiată de locurile în care mai mulți potențiali investitori noi veniți vor alege să se stabilească. Orașele mici atractive (mai puțin de 100.000 de locuitori) din Canada oferă oportunități unice de investiții pentru acești noi veniți. După ce s-a consultat cu compania, Willy este de acord ca noul birou regional pentru serviciile de consultanță în domeniul imigrației să fie mutat într-un oraș mai mic.

Înainte de a începe să se uite la clădirile de birouri și la alți factori majori, Willy trebuie să decidă dacă mai multe orașe mici pentru care sunt calificați noii veniți sunt situate în partea de est sau de vest a Canadei. Willy își găsește datele online, pe un site care listează cele mai bune orașe pentru a locui în Canada. El selectează primele zece orașe mici din lista de pe acest site. Tabelul 7.1 prezintă primele 18 orașe mici canadiene împreună cu populația și rangurile lor.

Tabelul 7.1 Top 18 orașe mici canadiene împreună cu populațiile și rangurile lor

Nr crt Oraș Populația Locația Rang
1 St. Albert, AB 64,377 West 1
2 Strathcona County, AB 98,232 West 2
3 Boucherville, QC 41,928 East 6
4 Lacombe, AB 12,510 West 17
5 Rimouski, QC 53,000 East 18
6 Repentigny, QC 85,425 East 20
7‌ Blainville, QC 57,058 East 21
8 Fredericton, NB 99,066 East 22
9 Stratford, ON 32,217 East 23
10 Aurora, ON 56,697 East 24
11 North Vancouver, B.C. (District Municipality) 88,085 West 25
12 North Vancouver, B.C. (City) 51,650 West 28
13 Halton Hills, ON 62,493 East 29
14 Newmarket, ON 84,902 East 31
15 Red Deer, AB 96,650 West 33
16 West Vancouver, B.C. 44,226 West 36
17 Brossard, QC 83,800 East 38
18 Camrose, AB 18,435 West 40

Zece dintre primele 18 sunt în est, iar opt sunt în vest, dar acești zece reprezintă doar un eșantion al pieței. Se pare că locurile estice tind să fie mai înalte în primele zece, dar este chiar așa? Dacă însumați rândurile, cele zece orașe din est au o sumă de rang de 92, în timp ce orașele din vest au o sumă de rang de 79, dar există mai multe orașe din est și, chiar dacă ar fi același număr, s-ar datora acea diferență unei medie diferită în clasament, sau se datorează doar eșantionării?

Testul U Mann-Whitney vă poate spune dacă suma de 79 pentru orașele vestice este semnificativ mai mică decât ar fi de așteptat dacă cele două grupuri ar fi într-adevăr aproximativ la fel și 10 din cele 18 din eșantion s-ar întâmpla să fie din același grup. Formula generală pentru calcularea U Mann-Whitney pentru primul dintre cele două grupuri este:

U1 = n1n2 + (n1(n1 + 1)/2 – T1

unde

T1 = suma rangurilor grupului 1
n1 = numărul de membri ai eșantionului din grupa 1
n2 = numărul de membri ai eșantionului din grupa 2

Această formulă pare ciudată la început, dar o mică gândire atentă vă va arăta ce se întâmplă. Ultima treime a formulei, –T1, scade suma de rang a grupului din restul formulei. Care sunt primele două treimi ale formulei? Cu cât este mai mare totalul celor două mostre ale tale și cu cât este mai mare din acel total din primul grup, cu atât te-ai aștepta să fie T1 mai mare, tot restul fiind egal. Privind primele două treimi ale formulei, puteți vedea că singurele variabile din ea sunt n1 și n2, dimensiunile celor două eșantioane. Primele două treimi ale formulei depind de cât de mare este grupul total și de modul în care este împărțit între cele două eșantioane. Dacă n1 sau n2 devine mai mare, la fel și această parte a formulei. Primele două treimi ale formulei reprezintă valoarea maximă pentru T1, suma rangului grupului 1. T1 va fi la maxim dacă membrii primului grup s-au aflat cu toții în partea de jos a clasamentului pentru eșantioanele combinate. Scorul U1 este atunci diferența dintre suma reală a rangului și maximul posibil. Un U1 mai mare înseamnă că membrii grupului 1 sunt grupați mai mult în partea de sus a clasamentului, iar un U1 mai mic înseamnă că membrii grupului 1 sunt grupați aproape de partea de jos a clasamentului, astfel încât suma rangurilor este aproape de maximul său. Evident, un scor U poate fi calculat pentru oricare dintre grupuri, deci există întotdeauna un U1 și un U2. Dacă U1 este mai mare, U2 este mai mic pentru un anumit n1 și n2, deoarece dacă T1 este mai mic, T2 este mai mare.

La ce ar trebui să se aștepte Willy dacă cele mai bune orașe se află într-o singură regiune, în loc să fie distribuite uniform în toată țara? Dacă cele mai bune orașe sunt distribuite uniform, atunci grupul de est și grupul de vest ar trebui să aibă U care sunt apropiate unul de celălalt, deoarece niciunul dintre grupuri nu va avea un T care este aproape nici de minimul său, nici de maximul său. Dacă un grup se află în cea mai mare parte în fruntea listei, atunci grupul respectiv va avea un U mai mare, deoarece T va fi mic, iar celălalt grup va avea un U mai mic, deoarece T va fi mare. U1 + U2 este întotdeauna egal cu n1n2, deci oricare dintre ele poate fi folosit pentru a testa ipoteza că cele două grupuri provin din aceeași populație. Deși există întotdeauna o pereche de scoruri U pentru orice test U Mann-Whitney, tabelele publicate arată doar cel mai mic dintre perechi. La fel ca toate celelalte tabele pe care le-ați folosit, acesta arată cum este distribuția de eșantionare a lui U.

Distribuția eșantionării și acest test au fost descrise pentru prima dată de H.B. Mann și D.R. Whitney (1947). (1) Deși trebuie să calculați ambele scoruri U, îl folosiți doar pe cel mai mic pentru a testa o ipoteză cu două cozi. Deoarece tabelele arată doar U mai mic, trebuie să fiți atenți când efectuați un test cu o singură coadă. Deoarece veți accepta ipoteza alternativă dacă U este foarte mic, utilizați U calculat pentru acel eșantion, despre care Ha spune că este mai jos în listă. Testați pentru a vedea dacă unul dintre eșantioane este situat în dreapta celuilalt, așa că testați pentru a vedea dacă suma de ranguri a acelui eșantion este suficient de mare pentru a-i face U suficient de mic pentru a accepta Ha. Dacă vă învățați să vă gândiți folosind această formulă, nu va trebui să memorați toate aceste detalii pentru că veți putea da seama ce să faceți.

Să revenim la problema lui Willy. Trebuie să testeze pentru a vedea dacă cele mai bune orașe în care să se găsească biroul sunt concentrate într-o parte a țării sau nu. El își poate ataca problema cu un test de ipoteză folosind testul U Mann-Whitney. Ipotezele lui sunt:

Ho: Distribuția clasamentelor orașelor din est și vest printre „cele mai bune locuri pentru noi investitori” sunt aceleași.

Ha: Distribuțiile sunt diferite.

Amintindu-și formula de mai sus, el își găsește cele două valori U:

Calculează U pentru orașele din est:

UE = 8 × 10 + (10 × 11)/2 – 92 = 43

iar pentru orașele vestice:

UW = 8 × 10 + (8 × 9)/2 – 79 = 37

Cel mai mic dintre cele două scoruri U este UW = 37. Aceasta este cunoscută sub numele de statistică de test Mann-Whitney. Deoarece 37 este mai mare decât 14, regula sa de decizie îi spune că datele susțin ipoteza nulă conform căreia orașele din est și vest se situează aproximativ la fel. Toate aceste calcule pot fi efectuate și în cadrul șablonului interactiv Excel furnizat în Figura 7.1.

Un element interactiv sau media a fost exclus din această versiune a textului. Îl puteți vizualiza online aici: https://www.telework.ro/wp-content/uploads/2022/02/Chapter-7_Fig-7.1_Testul_U_Mann.xlsx

Șablon Excel interactiv pentru testul U Mann-Whitney Figura 7.1 Șablon Excel interactiv pentru testul U Mann-Whitney – vezi Anexa 7.

Acest șablon are două foi de lucru. În prima foaie de lucru, numită „DATE”, trebuie să utilizați fila cu listă derulantă din coloana E (Locații), selectați Filtru, apoi bifați Est. Aceasta va filtra toate datele și va selecta numai orașele situate în estul Canadei. Pur și simplu copiați (Ctrl+c) datele create din următoarea coloană F (Ranks). Acum, treceți la următoarea foaie de lucru, numită „Mann-Whitney U-Test” și inserați (Ctrl+v) în coloana de Est. Repetați acești pași pentru a vă crea datele pentru orașele vestice și lipiți-le în coloana Vest din foaia de lucru Mann-Whitney U-Test. Pe măsură ce lipiți aceste date, rândurile tuturor acestor orașe vor fi create instantaneu în următoarele două coloane. În pasul final, introduceți alpha, fie .05, fie .01. Decizia finală corespunzătoare va urma automat. După cum puteți vedea în celula de decizie din șablon, Ho nu va fi respins. Acest rezultat indică faptul că ajungem la aceleași concluzii ca mai sus: Willy decide că noul birou regional de consultanță în imigrație poate fi într-un oraș de est sau de vest, cel puțin pe baza celor mai bune locuri pentru noii investitori în Canada. Decizia va depinde de costul biroului și disponibilitatea, orarul companiilor aeriene etc.

Referințe

  1. Mann, H.B., & Whitney, D.R. (1947). On a test of whether one or two random variables is stochastically larger than the other. Annals of Mathematical Statistics, 18, 50-60.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.