Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Măsurarea formei eșantioanelor în statistici

Măsurarea formei eșantioanelor în statistici

Măsurarea locației unui eșantion se face exact așa cum se face localizarea unei populații. Cu toate acestea, măsurarea formei unui eșantion se face puțin diferit decât măsurarea formei unei populații. Motivul din spatele diferenței este dorința ca măsurarea eșantionului să servească drept estimator imparțial al măsurării populației. Dacă am lua toate eșantioanele posibile de o anumită dimensiune, n, dintr-o populație și am găsi varianța fiecăruia și apoi am găsi media acestor varianțe ale eșantionului, media ar fi puțin mai mică decât varianța populației.

Puteți vedea de ce este așa dacă vă gândiți bine. Dacă ați ști media populației, ați putea găsi Σ((xμ)2/n) pentru fiecare eșantion și ați avea o estimare imparțială pentru σ2. Cu toate acestea, nu știți media populației, așa că va trebui să o deduceți. Cel mai bun mod de a deduce media populației este de a utiliza media eșantionului x. Varianța unui eșantion va fi apoi găsită prin medierea împreună a tuturor Σ((xx)2/n).

Media unui eșantion este, în mod evident, determinată de locul în care se află membrii eșantionului. Dacă aveți un eșantion care este în mare parte din partea superioară (sau dreaptă) a distribuției unei populații, atunci media eșantionului va fi aproape sigur mai mare decât media populației. Pentru un astfel de eșantion, Σ((xx)2/n) ar subestima σ2. Același lucru este valabil și pentru eșantioanele care provin în cea mai mare parte din partea joasă (sau stângă) a populației. Dacă vă gândiți la ce fel de eșantioane va avea Σ((xx)2/n) care este mai mare decât populația σ2, veți realiza că sunt doar acele eșantioane cu câțiva membri foarte mari și câțiva membri foarte mici – și nu sunt foarte multe eșantioane de genul acesta. Până acum ar fi trebuit să vă convingeți că Σ((xx)2/n) va duce la o estimare părtinitoare a lui σ2. Puteți vedea că, în medie, este prea mic.

Cum se poate găsi o estimare imparțială a varianței populației, σ2? Dacă Σ((xx)2/n) este în medie prea mic, trebuie să facem ceva pentru a-l face puțin mai mare. Vrem să păstrăm Σ(xx)2, dar dacă îl împărțim cu ceva puțin mai mic, rezultatul va fi puțin mai mare. Statisticienii au aflat că următorul mod de a calcula varianța eșantionului are ca rezultat un estimator imparțial al varianței populației:

s2 = Σ(xx)2 / (n – 1)

Dacă am prelua toate eșantioanele posibile de o anumită dimensiune, n, dintr-o populație și am găsi varianța eșantionului pentru fiecare dintre aceste eșantioane, folosind această formulă, media varianțelor eșantionului ar fi egală cu varianța populației, σ2.

Rețineți că folosim s2 în loc de σ2 și n în loc de N, deoarece aceasta este pentru un eșantion și dorim să folosim literele romane mai degrabă decât literele grecești, care sunt folosite pentru populații.

Există un alt mod de a vedea de ce împărțim cu n – 1. De asemenea, trebuie să abordăm ceva numit grade de libertate, care sunt cheia în cealaltă explicație. Pe măsură ce parcurgem această explicație, ar trebui să puteți vedea că cele două explicații sunt corelate.

Imaginați-vă că aveți un eșantion cu 10 membri, n = 10, și doriți să-l utilizați pentru a estima varianța populației din care a fost extrasă. Scrieți fiecare dintre cele 10 valori pe o bucată de hârtie separată. Dacă știți media populației, puteți începe calculând toate cele 10 (xμ)2. Cu toate acestea, în cazul obișnuit, nu știți μ și trebuie să începeți prin a găsi x din valorile de pe cei 10 membri pentru a le folosi ca o estimare a lui m. După ce ați găsit x, puteți pierde oricare dintre cele 10 valori și totuși puteți găsi valoarea care a fost pe restul pierdut din celelalte 9 valori. Dacă aveți de gând să utilizați x în formula pentru varianța eșantionului, doar 9 (sau n – 1) din x sunt liberi să ia orice valoare. Deoarece numai n – 1 din x-uri pot varia liber, ar trebui să împărțiți Σ(xx)2 la n – 1, numărul de (x-uri) care sunt cu adevărat libere. Odată ce utilizați x în formula pentru varianța eșantionului, utilizați un grad de libertate, lăsând doar n – 1. În general, ori de câte ori folosiți ceva pe care l-ați calculat anterior dintr-un eșantion într-o formulă, utilizați un grad de libertate.

O mică idee va lega cele două explicații. Prima explicație se bazează pe ideea că x, estimatorul lui μ, variază în funcție de eșantion. Deoarece x variază în funcție de eșantion, se folosește un grad de libertate în a doua explicație.

Abaterea standard a eșantionului se găsește pur și simplu luând rădăcina pătrată a varianței eșantionului:

s = √[Σ(xx)2 / (n – 1)]

În timp ce varianța eșantionului este un estimator imparțial al varianței populației, deviația standard a eșantionului nu este un estimator imparțial al deviației standard a populației – rădăcina pătrată a mediei nu este aceeași cu media rădăcinilor pătrate. Acest lucru determină statisticienii să folosească varianța acolo unde se pare că ar încerca să obțină abaterea standard. În general, statisticienii tind să folosească varianța mai mult decât deviația standard. Aveți grijă cu formulele care utilizează varianța eșantionului și deviația standard. Asigurați-vă că o utilizați pe cea potrivit[. De asemenea, rețineți că mulți calculatori vor găsi abaterea standard utilizând atât formulele de populație, cât și de eșantion. Unii folosesc σ și s pentru a arăta diferența dintre formulele de populație și eșantion, alții folosesc sn și sn-1 pentru a arăta diferența.

Dacă Ann dorea să deducă cum arăta repartiția populației șosetelor jucătorilor de volei în exemplul anterior, ar putea face acest lucru din eșantionul ei. Dacă va trimite antrenorilor de volei pachete de șosete pentru ca jucătorii să le încerce, va dori ca pachetele să conțină un sortiment de dimensiuni care să permită fiecărui jucător să aibă o pereche care să se potrivească. Ann vrea să deducă cum arată distribuția dimensiunilor șosetelor jucătorilor de volei. Vrea să știe media și varianța acestei distribuții. Datele ei, din nou, sunt prezentate în Tabelul 1.1.

Tabelul 1.1 Datele lui Ann

Mărimea Frecvența
6 3
7 24
8 33
9 20
10 17

Dimensiunea medie a șosetelor poate fi găsită astfel:

= (3*6 + 24*7 + 33*8 + 20*9 + 17*10) / 97 = 8,25

Pentru a găsi deviația standard a eșantionului, Ann decide să folosească Excel. Ea listează dimensiunile șosetei care au fost în eșantion în coloana A (vezi Tabelul 1.2) și frecvența fiecăreia dintre aceste dimensiuni în coloana B. Pentru coloana C, ea are computerul pentru a găsi pentru fiecare Σ(xx)2 dimensiunile șosetei, folosind formula (A1-8,25)2 în primul rând, apoi copiați-o în celelalte patru rânduri. În D1, ea înmulțește C1 cu frecvența utilizând formula = B1*C1 și copiind-o în celelalte rânduri. În cele din urmă, ea găsește abaterea standard eșantion prin adunarea celor cinci numere din coloana D și împărțirea la n – 1 = 96 folosind formula Excel = sum(D1: D5)/96. Foaia de calcul apare astfel când a terminat:

Tabelul 1.2 Dimensiunile șosetelor

A B C D E
1 6 3 5.06 15.19
2 7 24 1.56 37.5
3 8 33 0.06 2.06
4 9 20 0.56 11.25
5 10 17 3.06 52.06
6 n = 97 Var. = 1.217139
7 Dev.stand. = 1.103.24

Ann are acum o estimare a varianței mărimilor șosetelor purtate de jucătorii de baschet și volei, 1,22. Ea a dedus că populația șosetelor jucătorilor Chargers are o medie de 8,25 și o varianță de 1,22.

Datele colectate de Ann pot fi pur și simplu adăugate la următorul șablon Excel. Calculele atât ale varianței cât și ale abaterii standard au fost prezentate mai jos. Puteți schimba numerele ei pentru a vedea cum se schimbă aceste două măsuri.

Un element interactiv sau media a fost exclus din această versiune a textului. O puteți descărca online de aici.

Șablon Excel interactiv pentru a calcula varianța și deviația standard (Șablon Excel interactiv pentru a calcula varianța și deviația standard)

Rezumat

Pentru a descrie o populație, trebuie să descrieți imaginea sau graficul distribuției sale. Cele două lucruri care trebuie descrise despre distribuție sunt locația și forma sa. Locația este măsurată printr-o medie, cel mai adesea media aritmetică. Cea mai importantă măsurare de formă este o măsurare de dispersie, aproximativ lățimea, cel mai adesea varianța sau deviația standard a rădăcinii sale pătrate.

Eșantioanele trebuie descrise și ele. Dacă tot ceea ce am vrut să facem cu descrierile eșantionului a fost descrierea eșantionului, am putea folosi exact aceleași măsuri pentru locația și dispersia eșantionului care sunt utilizate pentru populații. Cu toate acestea, dorim să folosim descrierea eșantionului în scopuri duale: (a) pentru a descrie eșantionul și (b) pentru a face inferențe despre descrierea populației din care a provenit eșantionul. Deoarece vrem să le folosim pentru a face inferențe, dorim ca descrierile noastre de eșantioane să fie estimatori imparțiali. Dorința noastră de a măsura dispersia eșantionului cu un estimator imparțial al dispersiei populației înseamnă că formula pe care o folosim pentru calcularea varianței eșantionului este puțin diferită de cea utilizată pentru calcularea varianței populației.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Ghidul Google SEO
Ghidul Google SEO

Ghidul de iniţiere Google privind optimizarea pentru motoarele de căutare, Versiunea 1.1, 13 noiembrie 2008 Acest document a fost lansat iniţial ca un efort pentru a ajuta echipele Google, însă este la fel de util şi pentru webmasterii începători în … Citeşte mai mult

Nu a fost votat 0.00 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data
Big Data

Odată cu creșterea volumului de date pe Internet, în media socială, cloud computing, dispozitive mobile și date guvernamentale, Big Data devine în același timp o amenințare și o oportunitate în ceea ce privește gestionarea și utilizarea acestor date, menținând în … Citeşte mai mult

Nu a fost votat 14.09 lei51.79 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Informația, ca și concept, include o mare diversitate de sensuri în contexte diferite, de la cele zilnice până la cele tehnice. Conceptul de informație este strâns legat de noțiunile de restricție, comunicare, control, date, forme, educație, cunoaștere, înțelegere, stimul mental, … Citeşte mai mult

Nu a fost votat 18.80 lei45.29 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *