Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Estimarea varianței populației în statistică

Estimarea varianței populației în statistică

O altă sarcină comună de estimare a intervalului este de a estima varianța unei populații. Produsele de înaltă calitate nu trebuie doar să aibă dimensiunea medie adecvată, dar varianța ar trebui să fie mică. Estimarea varianței populației urmează aceeași strategie ca și celelalte estimări. Alegând un eșantion și presupunând că acesta provine din mijlocul populației, puteți utiliza o distribuție de eșantionare cunoscută pentru a găsi o serie de valori în care sunteți sigur că conține varianța populației. Încă o dată, vom folosi o distribuție de eșantionare pe care statisticienii au descoperit-o că formează o legătură între eșantioane și populații.

Luați un eșantion de dimensiunea n dintr-o populație normală cu varianță cunoscută și calculați o statistică numită χ2 (pronunțat chi pătrat) pentru acea probă folosind următoarea formulă:

χ2 = (Σ(x – x)2/(σ2)

Puteți vedea că χ2 va fi întotdeauna pozitiv, deoarece atât numărătorul, cât și numitorul vor fi întotdeauna pozitivi. Gândindu-ne puțin, puteți vedea, de asemenea, că pe măsură ce n devine mai mare, χ2 va fi în general mai mare, deoarece numărătorul va tinde să fie mai mare pe măsură ce din ce în ce mai mulți (x – x)2 sunt însumați împreună. Nu ar trebui să fie prea surprinzător până acum să aflăm că, dacă toate eșantioanele posibile de dimensiune n sunt luate din orice populație normală, χ2 este calculat pentru fiecare eșantion, iar acele χ2 sunt aranjate într-o distribuție relativă a frecvenței, distribuția este întotdeauna la fel.

Deoarece dimensiunea eșantionului afectează în mod evident χ2, există o distribuție diferită pentru fiecare dimensiune diferită a eșantionului. Există și alte statistici de eșantion care sunt distribuite ca χ2, așa că, la fel ca și distribuția-t, tabelele cu distribuția χ2 sunt aranjate pe grade de libertate, astfel încât să poată fi utilizate în orice procedură acolo unde este cazul. După cum v-ați putea aștepta, în această procedură, df = n-1. O parte dintr-un tabel χ2 este reprodusă mai jos în Figura 3.2. Puteți utiliza următorul șablon Excel interactiv pentru a găsi punctul de limită pentru χ2. În acest șablon, aveți de ales să introduceți gradele de libertate (degrees of freedom, df) și să selectați coada superioară a distribuției; χ2 corespunzător va fi creat împreună cu graficul său.

Un element interactiv sau media a fost exclus din această versiune a textului. Îl puteți vizualiza online aici: https://www.telework.ro/wp-content/uploads/2021/11/Chapter-3_Fig-3.2_Distributia_Chi_Patrat.xlsx

Șablon Excel interactiv pentru determinarea punctului de întrerupere al lui χ2 (Șablon Excel interactiv pentru determinarea punctului de întrerupere al lui χ2)

Varianța este importantă în controlul calității, deoarece doriți ca produsul dvs. să fie constant același. Managerul de control al calității al companiei Delta Beer, Peter, tocmai s-a întors de la un seminar numit „Bere de calitate, profituri de calitate”. A învățat ceva despre varianță și i-a cerut lui Kevin să măsoare varianța volumului sticlelor de bere produse de Delta. Kevin decide că poate îndeplini această solicitare preluând probe aleatorii direct de pe linia de producție. Kevin știe că varianța eșantionului este un estimator imparțial al varianței populației, dar el decide să producă o estimare pe intervale a variației volumului sticlelor de bere. De asemenea, decide că încrederea de 0,90 va fi bună până când va afla mai multe despre ceea ce își dorește Peter.

Kevin merge și găsește datele pentru volumul a 15 sticle de bere selectate aleatoriu, apoi se pregătește să folosească distribuția χ2 pentru a face o estimare a intervalului de încredere de 0,90 a varianței volumului sticlelor de bere. Datele lui colectate sunt prezentate mai jos în mililitri:

370,12; 369,25; 372,15; 370,14; 367,5; 369,54; 371,15; 369,36; 370,4; 368,95; 372,4; 370; 368,59; 369,12; 370,25

Cu eșantionul său de 15 sticle, va avea 14 df. Folosind șablonul Excel din Figura 3.2 de mai sus, introduce pur și simplu 0,05 cu 14 df o dată, și 0,975 cu același df altă dată în celulele galbene. El va descoperi că 0,95 din χ2 sunt mai mari decât 6,571 și numai 0,05 sunt mai mari decât 23,685 când există 14 df. Aceasta înseamnă că 0,90 sunt între 6,57 și 23,7. Presupunând că eșantionul său are un χ2 care este la mijloc 0,90, Kevin se pregătește să calculeze limitele intervalului său. De data aceasta, Kevin folosește funcțiile încorporate ale foii de calcul Excel pentru a calcula varianța și abaterea standard a datelor eșantionului. El folosește atât VAR.S, cât și STDEV.S. pentru a calcula atât varianța eșantionului, cât și abaterea standard. El vine cu 1,66 ca varianță a eșantionului și 1,29 ml ca abatere standard a eșantionului.

Kevin ia apoi formula χ2 și o rezolvă de două ori, o dată setând χ2 egal cu 6,57:

χ2 = 6,571 = 1,66/σ2

Rezolvând pentru σ2, el găsește că o limită pentru intervalul său este 0,253. El rezolvă a doua oară stabilind χ2 egal cu 23,685:

23,685 = 1,66/σ2

și găsiți că cealaltă limită este 0,07. Înarmat cu datele sale, Kevin raportează managerului de control al calității că „cu încredere de 090, varianța volumului sticlelor de bere este între 0,07 și 0,253”.

Rezumat

Ce înseamnă, oricum, chestia asta de încredere? În exemplul pe care l-am dat mai devreme, Ann a descoperit că „cu încredere de 0,95…” Ce înseamnă exact „cu încredere de 0,95”? Cel mai simplu mod de a înțelege acest lucru este să ne gândim la presupunerea pe care Ann a făcut-o că avea un eșantion cu un scor-z care nu se afla în cozile distribuției de eșantionare. Mai precis, ea a presupus că eșantionul ei a avut un scor z între ±1,96; că a fost la mijloc 95 la sută din scorurile z. Ipoteza ei este adevărată în 95% din timp, deoarece 95% din scorurile-z sunt între ±1,96. Dacă Ann ar face aceeași estimare, inclusiv extragerea unui eșantion nou, de mai multe ori, în 0,95 dintre acele repetări, proporția populației s-ar afla în interval, deoarece în 0,95 dintre eșantioane scorul-z ar fi cuprins între ±1,96. În 0,95 din repetări, estimarea ei ar fi corectă.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Cunoaștere și Informații
Cunoaștere și Informații

Autor: Nicolae Sfetcu Ediția a doua Cunoașterea și informațiile (abordate în ansamblu sau în componentele lor distincte) sunt o preocupare majoră pentru tehnologia informației, sisteme de informații, știința informației și activitatea de informații în general. Procesul obţinerii, prelucrării şi analizei … Citeşte mai mult

Nu a fost votat $5,99$59,99 Selectează opțiunile
Criptomonede
Criptomonede

Odată cu popularitatea crescândă a pieței criptovalutelor, și numărul mare de criptomonede nereglementate (câteva sute), o atenție mai mare este acordată acum acestei activități de guverne și alte părți interesate din întreaga lume. De notat capitalizarea de piață totală a … Citeşte mai mult

Nu a fost votat $0,00 Selectează opțiunile
Cum să devii antreprenor
Cum să devii antreprenor

Colecția IDEI DE AFACERI ”Cum să devii antreprenor” este o scurtă introducere la noțiunile de bază ale începerii propriei afaceri bazată pe tehnologie. Scrisă într-un limbaj concis, simplu, cartea este o lectură rapidă pe care o puteți absorbi în câteva … Citeşte mai mult

Nu a fost votat $2,99$7,21 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.