Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Estimarea varianței populației în statistică

Estimarea varianței populației în statistică

O altă sarcină comună de estimare a intervalului este de a estima varianța unei populații. Produsele de înaltă calitate nu trebuie doar să aibă dimensiunea medie adecvată, dar varianța ar trebui să fie mică. Estimarea varianței populației urmează aceeași strategie ca și celelalte estimări. Alegând un eșantion și presupunând că acesta provine din mijlocul populației, puteți utiliza o distribuție de eșantionare cunoscută pentru a găsi o serie de valori în care sunteți sigur că conține varianța populației. Încă o dată, vom folosi o distribuție de eșantionare pe care statisticienii au descoperit-o că formează o legătură între eșantioane și populații.

Luați un eșantion de dimensiunea n dintr-o populație normală cu varianță cunoscută și calculați o statistică numită χ2 (pronunțat chi pătrat) pentru acea probă folosind următoarea formulă:

χ2 = (Σ(x – x)2/(σ2)

Puteți vedea că χ2 va fi întotdeauna pozitiv, deoarece atât numărătorul, cât și numitorul vor fi întotdeauna pozitivi. Gândindu-ne puțin, puteți vedea, de asemenea, că pe măsură ce n devine mai mare, χ2 va fi în general mai mare, deoarece numărătorul va tinde să fie mai mare pe măsură ce din ce în ce mai mulți (x – x)2 sunt însumați împreună. Nu ar trebui să fie prea surprinzător până acum să aflăm că, dacă toate eșantioanele posibile de dimensiune n sunt luate din orice populație normală, χ2 este calculat pentru fiecare eșantion, iar acele χ2 sunt aranjate într-o distribuție relativă a frecvenței, distribuția este întotdeauna la fel.

Deoarece dimensiunea eșantionului afectează în mod evident χ2, există o distribuție diferită pentru fiecare dimensiune diferită a eșantionului. Există și alte statistici de eșantion care sunt distribuite ca χ2, așa că, la fel ca și distribuția-t, tabelele cu distribuția χ2 sunt aranjate pe grade de libertate, astfel încât să poată fi utilizate în orice procedură acolo unde este cazul. După cum v-ați putea aștepta, în această procedură, df = n-1. O parte dintr-un tabel χ2 este reprodusă mai jos în Figura 3.2. Puteți utiliza următorul șablon Excel interactiv pentru a găsi punctul de limită pentru χ2. În acest șablon, aveți de ales să introduceți gradele de libertate (degrees of freedom, df) și să selectați coada superioară a distribuției; χ2 corespunzător va fi creat împreună cu graficul său.

Un element interactiv sau media a fost exclus din această versiune a textului. Îl puteți vizualiza online aici: https://www.telework.ro/wp-content/uploads/2021/11/Chapter-3_Fig-3.2_Distributia_Chi_Patrat.xlsx

Șablon Excel interactiv pentru determinarea punctului de întrerupere al lui χ2 (Șablon Excel interactiv pentru determinarea punctului de întrerupere al lui χ2)

Varianța este importantă în controlul calității, deoarece doriți ca produsul dvs. să fie constant același. Managerul de control al calității al companiei Delta Beer, Peter, tocmai s-a întors de la un seminar numit „Bere de calitate, profituri de calitate”. A învățat ceva despre varianță și i-a cerut lui Kevin să măsoare varianța volumului sticlelor de bere produse de Delta. Kevin decide că poate îndeplini această solicitare preluând probe aleatorii direct de pe linia de producție. Kevin știe că varianța eșantionului este un estimator imparțial al varianței populației, dar el decide să producă o estimare pe intervale a variației volumului sticlelor de bere. De asemenea, decide că încrederea de 0,90 va fi bună până când va afla mai multe despre ceea ce își dorește Peter.

Kevin merge și găsește datele pentru volumul a 15 sticle de bere selectate aleatoriu, apoi se pregătește să folosească distribuția χ2 pentru a face o estimare a intervalului de încredere de 0,90 a varianței volumului sticlelor de bere. Datele lui colectate sunt prezentate mai jos în mililitri:

370,12; 369,25; 372,15; 370,14; 367,5; 369,54; 371,15; 369,36; 370,4; 368,95; 372,4; 370; 368,59; 369,12; 370,25

Cu eșantionul său de 15 sticle, va avea 14 df. Folosind șablonul Excel din Figura 3.2 de mai sus, introduce pur și simplu 0,05 cu 14 df o dată, și 0,975 cu același df altă dată în celulele galbene. El va descoperi că 0,95 din χ2 sunt mai mari decât 6,571 și numai 0,05 sunt mai mari decât 23,685 când există 14 df. Aceasta înseamnă că 0,90 sunt între 6,57 și 23,7. Presupunând că eșantionul său are un χ2 care este la mijloc 0,90, Kevin se pregătește să calculeze limitele intervalului său. De data aceasta, Kevin folosește funcțiile încorporate ale foii de calcul Excel pentru a calcula varianța și abaterea standard a datelor eșantionului. El folosește atât VAR.S, cât și STDEV.S. pentru a calcula atât varianța eșantionului, cât și abaterea standard. El vine cu 1,66 ca varianță a eșantionului și 1,29 ml ca abatere standard a eșantionului.

Kevin ia apoi formula χ2 și o rezolvă de două ori, o dată setând χ2 egal cu 6,57:

χ2 = 6,571 = 1,66/σ2

Rezolvând pentru σ2, el găsește că o limită pentru intervalul său este 0,253. El rezolvă a doua oară stabilind χ2 egal cu 23,685:

23,685 = 1,66/σ2

și găsiți că cealaltă limită este 0,07. Înarmat cu datele sale, Kevin raportează managerului de control al calității că „cu încredere de 090, varianța volumului sticlelor de bere este între 0,07 și 0,253”.

Rezumat

Ce înseamnă, oricum, chestia asta de încredere? În exemplul pe care l-am dat mai devreme, Ann a descoperit că „cu încredere de 0,95…” Ce înseamnă exact „cu încredere de 0,95”? Cel mai simplu mod de a înțelege acest lucru este să ne gândim la presupunerea pe care Ann a făcut-o că avea un eșantion cu un scor-z care nu se afla în cozile distribuției de eșantionare. Mai precis, ea a presupus că eșantionul ei a avut un scor z între ±1,96; că a fost la mijloc 95 la sută din scorurile z. Ipoteza ei este adevărată în 95% din timp, deoarece 95% din scorurile-z sunt între ±1,96. Dacă Ann ar face aceeași estimare, inclusiv extragerea unui eșantion nou, de mai multe ori, în 0,95 dintre acele repetări, proporția populației s-ar afla în interval, deoarece în 0,95 dintre eșantioane scorul-z ar fi cuprins între ±1,96. În 0,95 din repetări, estimarea ei ar fi corectă.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Management, analize, planuri și strategii de afaceri
Management, analize, planuri și strategii de afaceri

Ghidul indispensabil pentru înțelegerea și aplicarea celor mai eficiente tehnici și strategii de management.

Nu a fost votat 22.81 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Emoțiile și inteligența emoțională în organizații
Emoțiile și inteligența emoțională în organizații

Transformă-ți percepția asupra emoțiilor și învață să conduci cu empatie și eficiență!

Nu a fost votat 0.00 lei27.38 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Excel - Ghid pentru începători
Excel – Ghid pentru începători

Acest ghid este destinat să vă ajute să învățați și să lucrați cu Microsoft Excel. Se bazează pe utilizarea Excel 2016 pe un computer Windows, dar conceptele și instrumentele acoperite rămân destul de consistente cu unele versiuni mai vechi de … Citeşte mai mult

Nu a fost votat 0.00 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *