Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Estimarea varianței populației în statistică

Estimarea varianței populației în statistică

O altă sarcină comună de estimare a intervalului este de a estima varianța unei populații. Produsele de înaltă calitate nu trebuie doar să aibă dimensiunea medie adecvată, dar varianța ar trebui să fie mică. Estimarea varianței populației urmează aceeași strategie ca și celelalte estimări. Alegând un eșantion și presupunând că acesta provine din mijlocul populației, puteți utiliza o distribuție de eșantionare cunoscută pentru a găsi o serie de valori în care sunteți sigur că conține varianța populației. Încă o dată, vom folosi o distribuție de eșantionare pe care statisticienii au descoperit-o că formează o legătură între eșantioane și populații.

Luați un eșantion de dimensiunea n dintr-o populație normală cu varianță cunoscută și calculați o statistică numită χ2 (pronunțat chi pătrat) pentru acea probă folosind următoarea formulă:

χ2 = (Σ(x – x)2/(σ2)

Puteți vedea că χ2 va fi întotdeauna pozitiv, deoarece atât numărătorul, cât și numitorul vor fi întotdeauna pozitivi. Gândindu-ne puțin, puteți vedea, de asemenea, că pe măsură ce n devine mai mare, χ2 va fi în general mai mare, deoarece numărătorul va tinde să fie mai mare pe măsură ce din ce în ce mai mulți (x – x)2 sunt însumați împreună. Nu ar trebui să fie prea surprinzător până acum să aflăm că, dacă toate eșantioanele posibile de dimensiune n sunt luate din orice populație normală, χ2 este calculat pentru fiecare eșantion, iar acele χ2 sunt aranjate într-o distribuție relativă a frecvenței, distribuția este întotdeauna la fel.

Deoarece dimensiunea eșantionului afectează în mod evident χ2, există o distribuție diferită pentru fiecare dimensiune diferită a eșantionului. Există și alte statistici de eșantion care sunt distribuite ca χ2, așa că, la fel ca și distribuția-t, tabelele cu distribuția χ2 sunt aranjate pe grade de libertate, astfel încât să poată fi utilizate în orice procedură acolo unde este cazul. După cum v-ați putea aștepta, în această procedură, df = n-1. O parte dintr-un tabel χ2 este reprodusă mai jos în Figura 3.2. Puteți utiliza următorul șablon Excel interactiv pentru a găsi punctul de limită pentru χ2. În acest șablon, aveți de ales să introduceți gradele de libertate (degrees of freedom, df) și să selectați coada superioară a distribuției; χ2 corespunzător va fi creat împreună cu graficul său.

Un element interactiv sau media a fost exclus din această versiune a textului. Îl puteți vizualiza online aici: https://www.telework.ro/wp-content/uploads/2021/11/Chapter-3_Fig-3.2_Distributia_Chi_Patrat.xlsx

Șablon Excel interactiv pentru determinarea punctului de întrerupere al lui χ2 (Șablon Excel interactiv pentru determinarea punctului de întrerupere al lui χ2)

Varianța este importantă în controlul calității, deoarece doriți ca produsul dvs. să fie constant același. Managerul de control al calității al companiei Delta Beer, Peter, tocmai s-a întors de la un seminar numit „Bere de calitate, profituri de calitate”. A învățat ceva despre varianță și i-a cerut lui Kevin să măsoare varianța volumului sticlelor de bere produse de Delta. Kevin decide că poate îndeplini această solicitare preluând probe aleatorii direct de pe linia de producție. Kevin știe că varianța eșantionului este un estimator imparțial al varianței populației, dar el decide să producă o estimare pe intervale a variației volumului sticlelor de bere. De asemenea, decide că încrederea de 0,90 va fi bună până când va afla mai multe despre ceea ce își dorește Peter.

Kevin merge și găsește datele pentru volumul a 15 sticle de bere selectate aleatoriu, apoi se pregătește să folosească distribuția χ2 pentru a face o estimare a intervalului de încredere de 0,90 a varianței volumului sticlelor de bere. Datele lui colectate sunt prezentate mai jos în mililitri:

370,12; 369,25; 372,15; 370,14; 367,5; 369,54; 371,15; 369,36; 370,4; 368,95; 372,4; 370; 368,59; 369,12; 370,25

Cu eșantionul său de 15 sticle, va avea 14 df. Folosind șablonul Excel din Figura 3.2 de mai sus, introduce pur și simplu 0,05 cu 14 df o dată, și 0,975 cu același df altă dată în celulele galbene. El va descoperi că 0,95 din χ2 sunt mai mari decât 6,571 și numai 0,05 sunt mai mari decât 23,685 când există 14 df. Aceasta înseamnă că 0,90 sunt între 6,57 și 23,7. Presupunând că eșantionul său are un χ2 care este la mijloc 0,90, Kevin se pregătește să calculeze limitele intervalului său. De data aceasta, Kevin folosește funcțiile încorporate ale foii de calcul Excel pentru a calcula varianța și abaterea standard a datelor eșantionului. El folosește atât VAR.S, cât și STDEV.S. pentru a calcula atât varianța eșantionului, cât și abaterea standard. El vine cu 1,66 ca varianță a eșantionului și 1,29 ml ca abatere standard a eșantionului.

Kevin ia apoi formula χ2 și o rezolvă de două ori, o dată setând χ2 egal cu 6,57:

χ2 = 6,571 = 1,66/σ2

Rezolvând pentru σ2, el găsește că o limită pentru intervalul său este 0,253. El rezolvă a doua oară stabilind χ2 egal cu 23,685:

23,685 = 1,66/σ2

și găsiți că cealaltă limită este 0,07. Înarmat cu datele sale, Kevin raportează managerului de control al calității că „cu încredere de 090, varianța volumului sticlelor de bere este între 0,07 și 0,253”.

Rezumat

Ce înseamnă, oricum, chestia asta de încredere? În exemplul pe care l-am dat mai devreme, Ann a descoperit că „cu încredere de 0,95…” Ce înseamnă exact „cu încredere de 0,95”? Cel mai simplu mod de a înțelege acest lucru este să ne gândim la presupunerea pe care Ann a făcut-o că avea un eșantion cu un scor-z care nu se afla în cozile distribuției de eșantionare. Mai precis, ea a presupus că eșantionul ei a avut un scor z între ±1,96; că a fost la mijloc 95 la sută din scorurile z. Ipoteza ei este adevărată în 95% din timp, deoarece 95% din scorurile-z sunt între ±1,96. Dacă Ann ar face aceeași estimare, inclusiv extragerea unui eșantion nou, de mai multe ori, în 0,95 dintre acele repetări, proporția populației s-ar afla în interval, deoarece în 0,95 dintre eșantioane scorul-z ar fi cuprins între ±1,96. În 0,95 din repetări, estimarea ei ar fi corectă.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Arta războiului
Arta războiului

Arta războiului a lui Sunt Tzu a avut o influență extraordinară asupra tradițiilor militare chineze și japoneze și este încă predată în școlile militare din întreaga lume; constituie fundamentul gândirii strategice contemporane din Asia. Arta războiului a ajuns un canon … Citeşte mai mult

Nu a fost votat $1.90$3.29 Selectează opțiunile
Apa grea: O școală a cercetării științifice și tehnologice românești, o paradigmă în sensul lui Kuhn
Apa grea: O școală a cercetării științifice și tehnologice românești, o paradigmă în sensul lui Kuhn

Sfetcu, Nicolae, „Apa grea: O școală a cercetării științifice și tehnologice românești, o paradigmă în sensul lui Kuhn”, în Telework (06 decembrie 2022), MultiMedia Publishing, ISBN: 978-606-033-747-8, DOI: 10.58679/MM86316, https://www.telework.ro/ro/e-books/apa-grea-o-scoala-a-cercetarii-stiintifice-si-tehnologice-romanesti-o-paradigma-in-sensul-lui-kuhn/   Din poziția de simplu angajat al Fabricii de apă … Citeşte mai mult

Nu a fost votat $0.00$3.19 Selectează opțiunile
Inteligența competitivă - Concept - Studii
Inteligența competitivă – Concept – Studii

Trăim într-o lume condusă de hiper-concurență, în care oferta de afaceri depășește cererea. Pentru ca o organizație să supraviețuiască într-un mediu atât de agresiv competitiv, este necesară o mai bună înțelegere a concurenței și a forțelor concurente care îi afectează … Citeşte mai mult

Nu a fost votat $1.99$3.15 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *