Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Distribuții t în statistică

Distribuții t în statistică

Teorema limitei centrale ne spune despre relația dintre distribuția de eșantionare a mediilor și populația inițială. Observați că dacă dorim să cunoaștem varianța distribuției de eșantionare trebuie să cunoaștem varianța populației inițiale. Nu trebuie să cunoașteți varianța distribuției de eșantionare pentru a face o estimare punctuală a mediei, dar alte tehnici de estimare, mai elaborate, necesită fie să cunoașteți, fie să estimați varianța populației. Dacă reflectați o clipă, vă veți da seama că ar fi ciudat să cunoașteți varianța populației atunci când nu cunoașteți media. Deoarece trebuie să cunoașteți media populației pentru a calcula varianța populației și abaterea standard, singura dată când ați cunoaște varianța populației fără media populației sunt exemplele și problemele din manuale. Cazul obișnuit apare atunci când trebuie să estimați atât varianța populației, cât și media. Statisticienii și-au dat seama cum să gestioneze aceste cazuri utilizând varianța eșantionului ca estimare a varianței populației (și folosind aceasta pentru a estima varianța distribuției de eșantionare). Amintiți-vă că este un estimator imparțial al lui σ2. Amintiți-vă, de asemenea, că varianța distribuției de eșantionare a mediilor este legată de varianța populației inițiale conform ecuației:

σx2 = σ2/n

De aici rezultă abaterea standard estimată a unei distribuții de eșantionare a mediilor.

În urma acestui raționament, statisticienii au descoperit că, dacă ar lua eșantioane de o dimensiune constantă dintr-o populație normală, ar calcula o statistică numită scor t pentru fiecare eșantion și le-ar pune într-o distribuție de frecvență relativă, distribuția ar fi aceeași pentru eșantioanele de aceeași dimensiune extrasă din orice populație normală. Forma acestei distribuții de eșantionare a lui t variază oarecum pe măsură ce dimensiunea eșantionului variază, dar pentru orice n este întotdeauna aceeași. De exemplu, pentru eșantioanele de 5, 90% dintre eșantioane au scoruri t între -1,943 și +1,943, în timp ce pentru eșantioanele de 15, 90% au scoruri t între ± 1,761. Cu cât eșantioanele sunt mai mari, cu atât intervalul de scoruri care acoperă o anumită proporție a eșantioanelor este mai restrâns. Acest scor t este calculat prin formula:

t = (x – μ)/(s/√n)

Comparând formula pentru scorul t cu formula pentru scorul z, veți putea vedea că t este doar un z estimat. Deoarece există un scor t pentru fiecare probă, t este doar o altă distribuție de eșantionare. Se dovedește că există și alte lucruri care pot fi calculate dintr-un eșantion care au aceeași distribuție ca acest t. Observați că am folosit deviația standard a eșantionului, s, pentru a calcula fiecare scor t. De când am folosit s, am folosit un grad de libertate. Deoarece există și alte distribuții de eșantionare utile care au aceeași formă, dar care folosesc diferite numere de grade de libertate, este practica obișnuită să ne referim la distribuția t nu ca distribuție pentru o anumită dimensiune a eșantionului, ci ca distribuție pentru un anumit număr de grade de libertate (df). Sunt publicate tabele care arată formele distribuțiilor t și sunt aranjate pe grade de libertate, astfel încât să poată fi utilizate în toate situațiile.

Privind formula, puteți vedea că scorul t mediu va fi zero, deoarece media x este egală cu μ. Fiecare distribuție t este simetrică, jumătate din scorurile t fiind pozitive și jumătate negative deoarece știm din teorema limitei centrale că distribuția de eșantionare a mediilor este normală și, prin urmare, simetrică, atunci când populația inițială este normală.

Un extras dintr-un tabel t tipic este prezentat în Tabelul 2.2. Rețineți că există câte o linie pentru diferite grade de libertate. În partea de sus sunt proporțiile distribuțiilor care vor fi lăsate afară în coadă – cantitatea umbrită în imagine. Corpul tabelului arată ce scor t împarte cea mai mare parte a distribuției t-urilor pentru acel df de zona umbrită în coadă, care scor t lasă acea proporție de t-uri în dreapta sa. De exemplu, dacă ați ales toate eșantioanele posibile cu 9 df și ați găsit scorul t pentru fiecare, 0,025 (2,5 %) dintre acele mostre ar avea scoruri t mai mari de 2,262 și 0,975 ar avea scoruri t mai mici de 2,262.

Tabelul 2.2 O eșantionare a unui tabel t

df prob = .10 prob = .05 prob = .025 prob = .01  prob = .005
1  3.078 6.314 12.70 13.81 63.65
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
20 1.325 1.725 2.086 2.528 2.845
30 1.310 1.697 2.046 2.457 2.750
40 1.303 1.684 2.021 2.423 2.704
Infinit 1.282 1.645 1.960 2.326 2.580

În tabelul 2.2, o eșantionare a tabelului t arată probabilitatea depășirii valorii în organism. Cu 5 df, există o probabilitate de 0,05 ca un eșantion să aibă un scor t > 2,015.

Pentru un tabel t mai interactiv, împreună cu distribuția t, urmați șablonul Excel din Figura 2.3. Puteți modifica pur și simplu valorile din celulele galbene pentru a vedea punctul de tăiere al tabelului t și distribuția asociată acestuia.

Un element interactiv sau media a fost exclus din această versiune a textului. Îl puteți vizualiza online aici: https://www.telework.ro/wp-content/uploads/2021/10/Chapter-2_Fig-2.3_Distributia_t_01.xlsx

Distributia t- Șablon Excel interactiv al unui tabel t(Șablon Excel interactiv al unui tabel t)

Deoarece distribuțiile t sunt simetrice, dacă 2,5% (0,025) din t-urile cu 9 df sunt mai mari decât 2,262, atunci 2,5% sunt mai mici de -2,262. Mijlocul 95% (0,95) din t, când există 9 df, sunt între -2,262 și +2,262. Mijlocul 0,90 al scorurilor t atunci când există 14 df sunt între ±1,761, deoarece -1,761 lasă 0,05 în coada stângă și +1,761 lasă 0,05 în coada dreaptă. Distribuția t se apropie din ce în ce mai mult de distribuția normală pe măsură ce crește numărul de grade de libertate. Ca rezultat, ultima linie din tabelul t, pentru infinit df, poate fi folosită și pentru a găsi scorurile z care lasă diferite proporții ale eșantionului în coadă.

Ce ar fi putut face Kevin dacă ar fi fost întrebat: „Cât cântărește un pachet de 24 de sticle de bere?” și nu a putut găsi cu ușurință date bune despre populație? Întrucât știe statistici, ar putea să ia un eșantion și să facă o inferență despre media populației. Deoarece distribuția greutăților pachetelor de 24 de sticle de bere este rezultatul unui proces de fabricație, este aproape sigur normal. Caracteristicile aproape fiecărui produs fabricat sunt distribuite în mod normal. Într-un proces de fabricație, chiar și unul care este precis și bine controlat, fiecare piesă individuală variază ușor, deoarece temperatura variază oarecum, intensitatea puterii variază pe măsură ce alte mașini sunt pornite și oprite, consistența materiei prime variază ușor și zeci de alte forțe care afectează rezultatul final variază ușor. Cele mai multe pachete, sau șuruburi, sau orice se fabrică, vor fi foarte aproape de greutatea sau dimensiunea medie, cu tot atâta mai grele sau mai mari cu cât sunt mai ușoare sau mai mici. Chiar dacă procesul ar trebui să producă o populație de articole „identice”, vor exista unele variații între ele. Aceasta este ceea ce face ca atâtea populații să fie distribuite normal. Deoarece distribuția greutăților este normală, Kevin poate folosi tabelul t pentru a găsi forma distribuției scorurilor t ale eșantionului. Deoarece poate folosi tabelul t pentru a afla forma distribuției scorurilor t eșantionului, el poate ajunge la o concluzie bună despre greutatea medie a unui pachet de 24 de sticle de bere. Acesta este modul în care ar putea face acea inferență:

PASUL 1. Luați o probă de n, să zicem 15, pachete de sticle de bere și cântăriți cu atenție fiecare pachet.

PASUL 2. Găsiți x și s pentru eșantion.

PASUL 3 (unde începe partea dificilă). Uitați-vă la tabelul t și găsiți scorurile t care lasă o anumită proporție, să zicem 0,95, din probele t cu n-1 df în mijloc.

PASUL 4 (inima părții complicate). Să presupunem că eșantionul are un scor t care se află în partea de mijloc a distribuției scorurilor t.

PASUL 5 (aritmetica). Luați x, s, n și t din tabelul t și configurați două ecuații, una pentru fiecare dintre cele două valori t din tabel. Când se rezolvă fiecare dintre aceste ecuații pentru μ, se va găsi un interval care este 95% sigur (un statistician ar spune „cu încredere de .95”) că conține media populației.

Kevin decide că acesta este modul în care va răspunde la întrebare. Eșantionul său conține pachete de beri cu greutăți de:

16.25, 15.89, 16.25, 16.35, 15.9, 16.25, 15.85, 16.12, 17.16, 18.17, 14.15, 16.25, 17.025, 16.2, 17.025

El găsește media eșantionului, x = 16,32 kilograme, și abaterea standard a eșantionului (amintindu-și să folosească formula eșantionului), s = 0,87 kilograme. Tabelul t îi spune că 0,95 din probele t cu 14 df sunt între ±2,145. El rezolvă aceste două ecuații pentru μ:

+2.145 = (36.32 – μ) / (.87/√14) și -2.145 = (36.32 – μ) / (.87/√14)

găsind μ= 15,82 kilograme și μ= 16,82 kilograme. Cu aceste rezultate, Kevin poate spune că este „95 la sută sigur că greutatea medie a unui pachet de 24 de sticle de bere este între 15,82 și 16,82 kilograme”. Observați că acest lucru este diferit de când știa mai multe despre populație în exemplul anterior.

Rezumat

  • Multe lucruri sunt distribuite în același mod, cel puțin odată ce am standardizat valorile membrilor în scoruri z.
  • Teorema limitei centrale oferă utilizatorilor de statistici o mulțime de informații utile despre modul în care distribuția de eșantionare a lui x este legată de populația originală a lui x.
  • Distribuția t ne permite să facem multe dintre lucrurile pe care le permite teorema limitei centrale, chiar și atunci când varianța populației, sx, nu este cunoscută.

Statisticienii au învățat și despre alte distribuții de eșantionare și cum să le folosească pentru a face inferențe despre populații din eșantioane. Prin aceste distribuții de eșantionare cunoscute se realizează majoritatea statisticilor. Aceste distribuții de eșantionare cunoscute sunt cele care ne oferă legătura dintre eșantionul pe care îl avem și populația despre care dorim să facem o inferență.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *