Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Estimări în statistică – Estimarea mediei populației

Estimări în statistică – Estimarea mediei populației

Cel mai elementar tip de inferență despre o populație este o estimare a locației (sau formei) unei distribuții. Teorema limită centrală spune că media eșantionului este un estimator imparțial al mediei populației și poate fi utilizată pentru a face o inferență unică a mediei populației. Deși efectuarea acestui tip de inferență vă va oferi estimarea corectă în medie, rareori vă oferă exact estimarea corectă. Ca alternativă, statisticienii au aflat cum să estimeze un interval care conține aproape sigur media populației.

Deși media eșantionului este un estimator imparțial al mediei populației, foarte puține eșantioane au o medie exact egală cu media populației. Deși puține eșantioane au o medie exact egală cu media populației m, teorema limită centrală ne spune că majoritatea eșantioanelor au o medie care este apropiată de media populației. Ca rezultat, dacă utilizați teorema limită centrală pentru a estima μ, rareori veți avea exact dreptate, dar rareori veți greși mult. Statisticienii au învățat cât de des o estimare punctuală va fi cât de greșită. Folosind aceste cunoștințe puteți găsi un interval, un interval de valori care probabil conține media populației. Puteți chiar să alegeți cât de mare probabilitate doriți să aveți, deși pentru a crește probabilitatea, intervalul trebuie să fie mai larg.

De cele mai multe ori, estimările sunt estimări pe intervale. Când faceți o estimare a intervalului, puteți spune: „Sunt z la sută sigur că media acestei populații este între x și y”. Destul de des, veți auzi pe cineva spunând că a estimat că media este un număr „± atât de mult”. Ceea ce au făcut este că au citat punctul de mijloc al intervalului pentru „un număr”, astfel încât intervalul dintre x și y să poată fi apoi împărțit în jumătate cu + „atât de mult” deasupra punctului de mijloc și – „atât de mult” dedesubt. De obicei, ei nu vă spun că sunt doar „z la sută sigur”. A face o astfel de estimare nu este greu. Merită să parcurgeți pașii cu atenție, deoarece sunt urmați aceiași pași de bază pentru a face orice estimare a intervalului.

Pentru a face orice estimare a intervalului, trebuie să utilizați o distribuție de eșantionare. Pentru a face o estimare pe intervale a mediei populației, distribuția de eșantionare pe care o utilizați este distribuția t.

Metoda de bază este să alegeți un eșantion și apoi să găsiți intervalul de medii ale populației care ar pune scorul t al eșantionului dvs. în partea centrală a distribuției t. Pentru a face acest lucru puțin mai clar, priviți formula pentru t:

t = (x – μ)/(s/√n)

unde n este dimensiunea eșantionului și x și s sunt calculate din eșantion. μ este ceea ce încercați să estimați. Din tabelul-t, puteți găsi gama de scoruri-t care includ 80 la sută din medii, sau 90 la sută, sau orice procent, pentru n-1 grade de libertate. Alegeți procentul dorit și utilizați tabelul. Acum aveți cele mai mici și cele mai mari scoruri-t, x, s și n. Apoi puteți înlocui cel mai mic scor-t în ecuație și puteți rezolva pentru μ pentru a găsi una dintre limitele pentru μ dacă scorul-t al eșantionului dvs. se află la mijlocul distribuției. Apoi înlocuiți cel mai mare scor-t în ecuație și găsiți cealaltă limită. Amintiți-vă că doriți doi μ pentru că doriți să puteți spune că media populației este între două numere.

Cele două scoruri-t sunt aproape întotdeauna ± același număr. Singurul lucru eroic pe care l-ați făcut este să presupuneți că eșantionul dvs. are un scor-t care se află „la mijlocul” distribuției. Atâta timp cât eșantionul dvs. îndeplinește această ipoteză, media populației va fi în limitele intervalului dvs. Partea de probabilitate a estimării intervalului dvs., „Sunt z la sută sigur că media este între…”, sau „cu încredere z, media este între…”, provine din cât de mult din distribuția-t doriți să includeți ca „în medie”. Dacă aveți un eșantion de 25 (deci sunt 24 df), uitându-vă la tabel, veți vedea că .95 din toate eșantioanele de 25 vor avea un scor-t între ±2,064; asta înseamnă, de asemenea, că pentru orice eșantion de 25, probabilitatea ca t să fie între ±2,064 este 0,95.

Pe măsură ce probabilitatea crește, intervalul de scoruri-t necesare pentru a acoperi proporția mai mare a eșantionului devine mai mare. Are sens. Dacă doriți să îmbunătățiți șansa ca intervalul dvs. să conțină media populației, puteți alege pur și simplu un interval mai larg. De exemplu, dacă media eșantionului dvs. a fost 15, abaterea standard a eșantionului a fost 10 și dimensiunea eșantionului a fost 25, pentru a fi sigur de 0,95 că ați fost corect, ar trebui să vă bazați media pe scoruri-t de ±2,064. Lucrând aritmetic, vă oferă un interval de la 10,872 la 19,128. Pentru a avea o încredere de 0,99, ar trebui să vă bazați intervalul pe scoruri-t de ±2,797. Utilizarea acestor scoruri-t mai mari vă oferă un interval mai larg, unul de la 9,416 la 20,584. Acest compromis între precizie (un interval mai îngust este mai precis) și încredere (probabilitatea de a fi corect), apare în orice situație de estimare a intervalului. Există, de asemenea, un compromis cu dimensiunea eșantionului. Privind tabelul-t, rețineți că scorurile-t pentru orice nivel de încredere sunt mai mici atunci când există mai multe grade de libertate. Deoarece dimensiunea eșantionului determină grade de libertate, puteți face o estimare a intervalului pentru orice nivel de încredere mai precisă dacă aveți un eșantion mai mare. Eșantioanele mai mari sunt totuși mai scumpe de colectat și unul dintre principalele motive pentru care dorim să învățăm statistici este economisirea de bani. Există un compromis în trei căi în estimarea intervalului între precizie, încredere și cost.

La Delta Beer Company din Columbia Britanică, directorul de resurse umane a devenit îngrijorat de faptul că practicile de angajare discriminează lucrătorii în vârstă. El îi cere lui Kevin să analizeze vârsta la care sunt angajați noii lucrători, iar Kevin decide să găsească vârsta medie la angajare. Merge la biroul de personal și află că peste 2.500 de oameni diferiți au lucrat la această companie în ultimii 15 ani. Pentru a economisi timp și bani, Kevin decide să facă o estimare pe intervale a vârstei medii la data angajării. El decide că vrea să facă această estimare cu încredere de 0,95. Intrând în dosarele de personal, Kevin alege 30 de dosare și înregistrează din fiecare data nașterii și data angajării. El găsește vârsta la angajare pentru fiecare persoană și calculează media eșantionului și abaterea standard, constatând x = 24,71 ani și s = 2,13 ani. Mergând la tabelul-t, el constată că 0,95 din scorurile t cu df=29 sunt între ±2,045. Puteți utiliza alternativ șablonul interactiv Excel din Figura 3.1 pentru a găsi aceeași valoare pentru scorurile-t. Făcând acest lucru, puteți introduce df=29 și alegeți alpha=0,025. Motivul pentru care selectați 0,025 este că Kevin construiește o estimare pe intervale a vârstei medii. Prin urmare, valoarea reală a lui alfa pentru a afla scorul-t corect este 0,025=(1-0,95)/2.

Un element interactiv sau media a fost exclus din această versiune a textului. Îl puteți vizualiza online aici: https://www.telework.ro/wp-content/uploads/2021/11/Chapter-3_Fig-3.1_Distributia_t_01.xlsx

Șablon Excel interactiv pentru determinarea punctului de limită a valorilor t (Șablon Excel interactiv pentru determinarea punctului de limită a valorilor t – vezi Anexa 3.)

El rezolvă două ecuații:

±2,045 = (24,71 – μ)/(2,13/√30)

și constată că limitele intervalului său sunt 23,91 și 25,51. Kevin îi spune directorului de resurse umane: „Cu încredere de 0,95, vârsta medie la data angajării este între 23,91 și 25,51 ani.”

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *