Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Testarea independenței și a variabilelor categoriale în statistică

Testarea independenței și a variabilelor categoriale în statistică

Folosim testarea ipotezelor atunci când avem de-a face cu variabile categoriale. Variabilele categoriale sunt în două sau mai multe categorii. În afaceri, și în principal în marketing, dorim să stabilim pe ce factor(i) își bazează clienții preferința pentru un tip de produs față de altele. Deoarece preferințele clienților nu sunt aceleași nici măcar într-o anumită zonă geografică, strategii și managerii de marketing sunt adesea dornici să cunoască asocierea dintre acele variabile care afectează alegerile cumpărătorilor. Cu alte cuvinte, vor să știe dacă deciziile clienților sunt independente din punct de vedere statistic de un factor presupus, cum ar fi vârsta.

De exemplu, imaginați-vă că proprietarul unui restaurant de familie nou înființat din Burnaby, BC, cu filiale în North Vancouver, Langley și Kelowna, este interesat să determine dacă vârsta clienților restaurantului afectează felurile de mâncare pe care le comandă. Dacă se întâmplă, ea va explora ideea de a percepe prețuri diferite pentru mâncăruri populare cu diferite grupe de vârstă. Managerul de vânzări a colectat date despre 711 vânzări de diferite feluri de mâncare în ultimele șase luni, împreună cu vârsta aproximativă a clienților, și a împărțit clienții în trei categorii. Tabelul 4.5 prezintă defalcarea comenzilor și grupelor de vârstă.

Tabelul 4.5 Comenzi de alimente pe grupe de vârstă:

Comenzi
Peşte Vegetale Carne Spaghete Total
Grupe de vârstă Copii 26 21 15 20 82
Adulti 100 74 60 70 304
Seniori 90 45 80 110 325
Total 216 140 155 200 711

Proprietarul își scrie ipotezele:

Ho: Preferințele clienților pentru feluri de mâncare sunt independente de vârsta lor

Ha: Preferințele clienților pentru feluri de mâncare depind de vârsta lor

Testul de bază pentru acest tabel de contingență este cunoscut sub numele de testul chi-pătrat. Acest lucru va determina dacă vârstele și preferințele clienților sunt independente unele de altele.

Calculăm atât frecvențele observate, cât și cele așteptate, așa cum am făcut în exemplul anterior, care implică șosete sport, unde O = frecvența observată în eșantion din fiecare clasă și E = frecvența așteptată în eșantion din fiecare clasă. Apoi calculăm frecvența așteptată pentru tabelul de mai sus cu i rânduri și j coloane, folosind următoarea formulă:

Σi=13Σj=14(Oij – Eij)2/Eij = χ2

Această distribuție chi-pătrat va avea (i-1)(j-1) grade de libertate. O condiție tehnică pentru acest test este ca valoarea pentru fiecare dintre celule să nu fie mai mică de 5. Figura 4.2 oferă valorile ipotetice pentru diferite niveluri de semnificație.

Frecvența așteptată, Eij, este găsită prin înmulțirea frecvenței relative a fiecărui rând și coloană, apoi împărțind această cantitate la dimensiunea totală a eșantionului. Prin urmare,

Eij = (total i rânduri)(total j coloane)/(Dimensiunea totală a eșantionului

Pentru fiecare dintre frecvențele așteptate, selectăm rândul total asociat din fiecare dintre grupurile de vârstă și îl înmulțim cu totalul aceleiași coloane, apoi îl împărțim la dimensiunea totală a eșantionului. Pentru primul rând și coloană, înmulțim (82 *216)/711=24,95. Tabelul 4.6 rezumă toate frecvențele așteptate pentru acest exemplu.

Tabelul 4.6 Comenzi de alimente după frecvențele așteptate:

Comenzi
Peşte Vegetale Carne Spaghete Total
Grupe de vârstă Copii 14,95 16,15 17,88 23,07 82
Adulti 92,35 59,86 66,27 85,51 304
Seniori 98,73 63,99 70,85 91,42 325
Total 216 140 155 200 711

Acum folosim frecvențele estimate calculate și frecvențele observate pentru a calcula statistica testului chi-pătrat:

χ2 = Σi=13Σj=14(Oij – Eij)2/Eij = (26 – 24,95)2/24,95 + (21 – 16,5)2/16,5 + … + (119 – 91,42)2/91,42 = 21,13

Am calculat statistica testului eșantionului ca 21,13, care este peste valoarea limită de 12,592 a tabelului chi-pătrat asociat cu (3-1)*(4-1) = 6 df la nivelul 0,05. Pentru a afla punctul de tăiere exact din tabelul chi-pătrat, puteți introduce nivelul alfa de 0,05 și gradele de libertate, 6, direct în celulele galbene din următorul șablon Excel interactiv (Figura 4.2). Acest șablon conține două foi; va reprezenta grafic distribuția chi-pătrat pentru acest exemplu și va afișa automat punctul de decuplare exact.

Un element interactiv sau media a fost exclus din această versiune a textului. Îl puteți vizualiza online aici: https://www.telework.ro/wp-content/uploads/2021/12/Chapter-4_Fig-4.2_Distributia_chi-patrat.xlsx

Șablon Excel interactiv pentru determinarea punctului de decuplare al lui chi-pătrat Figura 4.2 Șablon Excel interactiv pentru determinarea punctului de decuplare al lui chi-pătrat – vezi Anexa 4.

Rezultatul indică faptul că datele noastre din eșantion au susținut ipoteza alternativă. Cu alte cuvinte, preferințele clienților pentru diferite feluri de mâncare depind de grupele lor de vârstă. Pe baza acestui rezultat, proprietarul poate diferenția prețul în funcție de aceste diferite grupuri de vârstă.

Folosind testul de independență, proprietarul poate merge și mai departe pentru a afla dacă o astfel de dependență există printre alte perechi de date categorice. De data aceasta, poate dori să colecteze date pentru grupele de vârstă selectate în diferite locații ale restaurantului din Columbia Britanică. Rezultatele acestui test vor dezvălui mai multe informații despre tipurile de clienți pe care aceste restaurante îi atrag în diferite locații. În funcție de disponibilitatea datelor, o astfel de analiză statistică poate fi, de asemenea, efectuată pentru a ajuta la determinarea unei politici de preț îmbunătățite pentru diferite grupuri în diferite locații, la diferite ore ale zilei sau în diferite zile ale săptămânii. În cele din urmă, proprietarul poate, de asemenea, să refacă această analiză prin includerea altor caracteristici ale acestor clienți, cum ar fi educația, sexul etc., și alegerea lor de fel de mâncare.

Rezumat

Acest capitol a fost o introducere în testarea ipotezelor. Ar trebui să puteți vedea relația dintre matematica și strategiile de testare a ipotezelor și matematica și strategiile de estimare pe intervale. Când faceți o estimare a intervalului, construiți un interval în jurul statisticii eșantionului pe baza unei distribuții de eșantionare cunoscute. Când testați o ipoteză, construiți un interval în jurul unui parametru de populație ipotetizat, folosind o distribuție de eșantionare cunoscută pentru a determina lățimea intervalului respectiv. Apoi vedeți dacă statistica eșantionului dvs. se încadrează în acel interval pentru a decide dacă eșantionul dvs. provine probabil dintr-o populație cu acel parametru de populație ipotezat. Testarea ipotezelor are și implicații pentru luarea deciziilor în marketing, așa cum am văzut când am extins discuția pentru a include testul independenței pentru datele categoriale.

Testarea ipotezelor este o tehnică statistică utilizată pe scară largă. Te obligă să te gândești în avans la ceea ce ai putea găsi. Forțându-vă să gândiți înainte, de multe ori ajută la luarea deciziilor, forțându-vă să vă gândiți la ceea ce se află în decizia dvs. Toate statisticile necesită o gândire clară, iar gândirea clară, în general, ia decizii mai bune. Testarea ipotezelor necesită o gândire foarte clară și adesea duce la o mai bună luare a deciziilor.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile
Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat $2,99$5,07 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.