Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Eșantionarea în statistici

Eșantionarea în statistici

Este important să recunoaștem că există un alt cost pentru utilizarea statisticilor, chiar și după ce ați învățat statistici. Nu sunteți niciodată sigur că inferențele dvs. sunt corecte. Cu cât doriți să fie mai precisă deducția dvs., fie cu atât mai mare va fi eșantionul pe care va trebui să îl colectați (și cu atât mai mult timp și bani va trebui să cheltuiți pentru colectarea acestuia), fie cu atât mai mare va fi șansa de a greși. Practic, dacă eșantionul dvs. reprezintă o bună reprezentare a întregii populații – dacă conține membri din întreaga gamă a populației în proporții similare cu cea din populație – inferențele făcute vor fi bune. Dacă reușiți să alegeți un eșantion care nu reprezintă o bună reprezentare a populației, inferențele dvs. sunt probabil greșite. Alegând cu atenție eșantioanele, puteți crește șansa unui eșantion reprezentativ pentru populație și șansa unei inferențe exacte.

Intuiția din spatele acestui lucru este ușoară. Imaginați-vă că doriți să deduceți media unei populații. Modul de a face acest lucru este să alegeți un eșantion, să găsiți media eșantionului respectiv și să utilizați media eșantionului ca inferență a populației. Dacă eșantionul dvs. a inclus toate, sau aproape toate, observațiile cu valori care se află la capătul de sus al celor din populație, media eșantionului dvs. va supraestima media populației. Dacă eșantionul dvs. include un număr aproximativ egal de observații cu valori „ridicate” și „scăzute” și „medii”, media eșantionului va fi apropiată de media populației, iar media eșantionului va oferi o deducție bună a mediei populației. Dacă eșantionul dvs. include în principal observații de la mijlocul populației, veți obține, de asemenea, o deducție bună. Rețineți că media eșantionului va fi rareori exact egală cu media populației, totuși, deoarece majoritatea eșantioanelor vor avea un echilibru aproximativ între valorile mari și mici și medii, media eșantionului va fi de obicei aproape de media reală a populației. Cheia unei bune eșantionări este de a evita alegerea membrilor eșantionului dvs. într-un mod care tinde să aleagă prea multe observații „de sus” sau prea multe „de jos”.

Există trei modalități de bază pentru a atinge acest obiectiv. Puteți alege eșantionul în mod aleatoriu, puteți alege un eșantion stratificat sau puteți alege un eșantion cluster. Deși nu există nicio modalitate de a se asigura că un singur eșantion va fi reprezentativ, urmărirea disciplinei de eșantionare aleatorie, stratificată sau grupată reduce foarte mult probabilitatea de a alege un eșantion nereprezentativ.

Distribuția eșantionării

Lucrul care face ca statisticile să funcționeze este că statisticienii au descoperit modul în care eșantioanele sunt legate de populații. Aceasta înseamnă că statisticienii știu că, dacă sunt luate toate eșantioanele posibile dintr-o populație și se calculează ceva (numit generic „statistic”) pentru fiecare eșantion, se știe ceva despre cum noua populație de statistici calculate din fiecare eșantion este legată de populația inițială. De exemplu, dacă toate eșantioanele unei dimensiuni date sunt luate dintr-o populație, se calculează media fiecărui eșantion și apoi se găsește media acestor eșantioane, statisticiștii știu că media eșantionului este egală cu media populației inițiale.

Există multe distribuții posibile de eșantionare. Multe statistici diferite pot fi calculate din eșantioane și fiecare populație originală diferită va genera un set diferit de eșantioane. Lucrul uimitor și ceea ce face posibilă realizarea de inferențe despre populații din eșantioane, este că există câteva statistici care au aproximativ aceeași distribuție de eșantionare atunci când sunt calculate din eșantioane din mai multe populații diferite.

Probabil că sunteți încă puțin confuz cu privire la ceea ce este o distribuție de eșantionare. Acesta va fi discutat mai mult în distribuțiile normale și distribuțiile t. Un exemplu aici vă va ajuta. Imaginați-vă că aveți o populație – mărimea șosetei tuturor jucătorilor de volei din Conferința Atlanticului de Sud. Luați un eșantion de o anumită dimensiune, să zicem șase, și găsiți media eșantionului respectiv. Apoi, luați un alt eșantion de șase dimensiuni de șosete și găsiți media eșantionului respectiv. Continuați să luați mostre diferite până când veți găsi media tuturor eșantioanelor posibile din șase. Veți genera o nouă populație, populația mediilor eșantioanelor. Această populație este distribuția eșantionării. Deoarece statisticienii pot găsi adesea ce proporție dintre membrii acestei noi populații vor lua anumite valori dacă știu anumite lucruri despre populația inițială, vom putea face anumite inferențe despre populația inițială dintr-un singur eșantion.

Statistici univariate și multivariate și ideea unei observații

O populație poate include doar un lucru despre fiecare membru al unui grup sau poate include două sau mai multe lucruri despre fiecare membru. În ambele cazuri, va exista o observație pentru fiecare membru al grupului. Statisticile univariate se preocupă de a face inferențe despre o populație variabilă, cum ar fi „care este mărimea medie a pantofilor studenților la management?” Statisticile multivariate se preocupă de a face inferențe cu privire la modul în care două sau mai multe variabile sunt conectate în populație, cum ar fi „studenții cu medii mari au de obicei picioare mari?” Ceea ce este important la statisticile multivariate este că vă permit să faceți predicții mai bune. Dacă ar fi trebuit să prezici mărimea pantofilor unui student la management și ai fi aflat că studenții cu medii mari au de obicei picioare mari, cunoașterea mediei notelor studenților ar putea ajuta. Statisticile multivariate sunt puternice și găsesc aplicații în economie, finanțe și contabilitate.

Ann Howard și Kevin Schmidt din exemplul anterior ar putea folosi statistici multivariate dacă dl McGrath le-ar cere să studieze efectele publicității radio asupra vânzărilor de șosete. Aceștia ar putea colecta un eșantion multivariat prin colectarea a două variabile din fiecare dintre mai multe orașe – modificări recente ale vânzărilor și suma cheltuită pentru reclame radio. Folosind tehnici multivariate, Ann și Kevin pot vedea dacă mai multe reclame la radio înseamnă mai multe vânzări de șosete.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Proiectarea, dezvoltarea şi întreţinerea siturilor web
Proiectarea, dezvoltarea şi întreţinerea siturilor web

Un ghid pentru dezvoltatorii web, cu accent pe HTML, XML, JavaScript, SQL, tehnologii web, software web, software pentru dezvoltare web, aplicaţii web, şabloane pentru aplicaţii web, AJAX, servicii web, sindicalizarea web, web design, situri web, găzduirea web, analiza siturilor web, … Citeşte mai mult

Nu a fost votat 12.91 lei51.69 lei Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat 0.00 lei Selectează opțiunile
Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat 12.91 lei Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *