Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Teorema limitei centrale în probabilități și statistică

Teorema limitei centrale în probabilități și statistică

Dacă acesta ar fi un curs de statistici pentru cursurile de matematică, probabil că va trebui să demonstrați această teoremă. Deoarece acest text este conceput pentru afaceri și pentru studenți care nu fac matematică în mod special, va trebui doar să învățați să înțelegeți ce spune teorema și de ce este importantă. Pentru a înțelege ce spune, ajută să înțelegem de ce funcționează. Iată o explicație a motivului pentru care funcționează.

Teorema se referă la distribuțiile de eșantionare și la relația dintre locația și forma unei populații și locația și forma unei distribuții de eșantionare generate de acea populație. Mai exact, teorema limitei centrale explică relația dintre o populație și distribuția mijloacelor de eșantionare găsite prin prelevarea tuturor eșantioanelor posibile de o anumită dimensiune din populația inițială, găsirea mediei fiecărui eșantion și aranjarea lor într-o distribuție.

Distribuirea eșantionării mediilor este un concept ușor. Să presupunem că aveți o populație de x-uri. Luați un eșantion de n din acele x-uri și găsiți media eșantionului respectiv, obținând un x. Apoi, luați un alt eșantion de aceeași dimensiune, n, și găsiți x-ul său. Faceți acest lucru din nou și din nou până când ați ales toate eșantioanele posibile de dimensiunea n. Veți genera o nouă populație, o populație de x-uri. Aranjați această populație într-o distribuție și veți avea distribuția eșantionării mediilor. Ați putea găsi distribuția eșantionării mediilor, sau varianțe, sau alte statistici ale eșantionului, colectând toate eșantioanele posibile de o anumită dimensiune, n, găsind mediile, varianța sau alte statistici despre fiecare eșantion și aranjându-le într-o distribuție.

Teorema limitei centrale se referă la distribuția prin eșantionare a mediilor. Conectează distribuția eșantionării x-urilor cu distribuția originală a x-urilor. Ne spune că:

(1) Media mediilor eșantionului este egală cu media populației inițiale, μx = μ. Aceasta este ceea ce face din x un estimator imparțial al lui μ.

(2) Distribuția x-urilor va avea formă de clopot, indiferent de forma distribuției originale a x-urilor.

Acest lucru are sens atunci când te oprești și te gândești la asta. Înseamnă că doar o mică parte din eșantioane au medii care sunt departe de media populației. Pentru ca un eșantion să aibă o medie care să fie departe de μx, aproape toți membrii acestuia trebuie să se afle din coada dreaptă a distribuției lui x sau aproape toți trebuie să fie din coada stângă. Există mult mai multe eșantioane cu majoritatea membrilor lor din mijlocul distribuției sau cu unii membri din coada dreaptă și unii din coada stângă, iar toate aceste eșantioane vor avea un x apropiat de μx.

(3a) Cu cât eșantioanele sunt mai mari, cu atât distribuția eșantionării va fi mai aproape de normal și

(3b) dacă distribuția lui x este normală, la fel este și distribuția lui x.

Acestea provin din același raționament de bază ca și (2), dar ar necesita o dovadă formală, deoarece distribuția normală este un concept matematic. Nu este prea greu să vezi că eșantioanele mai mari vor genera o distribuție „mai în formă de clopot” a mediilor de eșantionare decât eșantioanele mai mici, și asta face ca (3a) să funcționeze.

(4) Varianța x-urilor este egală cu varianța x-urilor împărțită la dimensiunea eșantionului, sau:

σx2 = σ2/n

prin urmare, abaterea standard a distribuției de eșantionare este:

σx = σ/√n

Deși este dificil de văzut de ce această formulă este corectă fără a trece printr-o demonstrație formală, ideea de bază că eșantioanele mai mari produc distribuții de eșantionare cu abateri standard mai mici poate fi înțeleasă intuitiv. Daca σx = σx/√n atunci σx < σA. Mai mult, când mărimea eșantionului n crește, σ2x se micșorează. Acest lucru se datorează faptului că devine mai neobișnuit să obțineți un eșantion cu un x care este din ce în ce mai departe de μ pe măsură ce n devine mai mare. Abaterea standard a distribuției de eșantionare include un (x – μ) pentru fiecare, dar amintiți-vă că nu există multe x-uri care să fie la fel de departe de μ pe cât este x departe de μ și, pe măsură ce n crește, sunt din ce în ce mai puține eșantioane cu un x departe de μ. Aceasta înseamnă că nu sunt mulți (x – μ) care sunt la fel de mari pe cât sunt destul de mulți (x – μ). Când ridicăm la pătrat totul, media va fi mult mai mică decât media (x – μ)2, deci σx va fi mult mai mic decât σx. Dacă volumul mediu al băuturilor răcoritoare într-o populație de cutii de 355 ml este de 360 ​​ml cu o variație de 5 (și o abatere standard de 2,236), atunci distribuția prin eșantionare a mediilor eșantioanelor de nouă cutii va avea o medie de 360 ​​ml și o varianță de 5/9 = 0,556 (și o abatere standard de 2,236 / 3 = 0,745).

De asemenea, puteți utiliza șablonul Excel interactiv din Figura 2.2 care ilustrează teorema limitei centrale. Pur și simplu faceți dublu clic pe celula galbenă din foaia numită CLT (n = 5) sau pe celula galbenă a foaiei numite CLT (n = 15), apoi faceți clic pe Enter. Nu încercați să modificați formula din aceste celule galbene. Aceasta va prelua automat un eșantion din distribuția populației și va recrea distribuția de eșantionare asociată a lui x. Puteți repeta acest proces făcând dublu clic pe celula galbenă pentru a vedea că, indiferent de distribuția populației, distribuția eșantionării lui x este aproximativ normală. De asemenea, veți realiza că media populației și distribuția eșantionării lui x sunt întotdeauna aceleași.

Un element interactiv sau media a fost exclus din această versiune a textului. O puteți descărca online de aici.

Șablon interactiv Excel pentru ilustrarea teoremei limitei centrale (Șablon interactiv Excel pentru ilustrarea teoremei limitei centrale)

Urmând aceeași linie de raționament, puteți vedea în șablonul din Figura 2.2 că atunci când efectuați procesele de eșantionare cu n = 5 și apoi n = 15, eroarea de eșantionare devine mai mică. De asemenea, puteți observa, când schimbați dimensiunea eșantionului de la 5 la 15 (trecând de la foaia CLT (n = 15) la CLT (n = 5)), pe măsură ce dimensiunea eșantionului devine mai mare, varianța și deviația standard a distribuției eșantionării devin mai mici. Amintiți-vă doar că pe măsură ce dimensiunea eșantionului crește, eșantioanele cu un x care este departe de μ devin din ce în ce mai rare, astfel încât media (x – μ)2 devine mai mică. Media (x – μ)2 este varianța.

Înapoi la exemplul cu băuturile răcoritoare. Dacă sunt prelevate probe mai mari de sticle de băuturi răcoritoare, să spunem probe de 16, chiar mai puține probe vor avea medii care sunt foarte departe de media de 360 ​​ml. Varianța distribuției de eșantionare atunci când n = 16 va fi, prin urmare, mai mică. Conform celor ce tocmai ați învățat, varianța va fi doar 5/16 = 0,3125 (iar abaterea standard va fi 2,236 / 4 = 0,559). Formula se potrivește cu ceea ce se întâmplă logic; pe măsură ce eșantioanele devin mai mari, probabilitatea de a obține un eșantion cu o medie care este departe de media populației devine mai mică, astfel distribuția eșantionării mediilor devine mai restrânsă și varianța (și abaterea standard) devin mai mici. În formulă, împărțiți varianța populației la dimensiunea eșantionului pentru a obține varianța distribuției eșantionării. Deoarece eșantioane mai mari înseamnă împărțirea la un număr mai mare, varianța scade pe măsură ce mărimea eșantionului crește. Dacă utilizați media eșantionului pentru a deduce media populației, utilizarea unui eșantion mai mare va crește probabilitatea ca inferența dvs. să fie foarte aproape de cea corectă, deoarece mai multe dintre eșantioane sunt foarte apropiate de media populației. Există, evident, un compromis aici. Motivul pentru care ați dorit să utilizați statistici în primul rând a fost să evitați să vă deranjați și să cheltuiți pentru colectarea multor date, dar dacă colectați mai multe date, statisticile dvs. vor fi probabil mai exacte.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *